Traitement des données cloud avec DuckDB et AWS S3

Tutoriels

AWS

DuckDb est une base de données en mémoire puissante qui possède une fonctionnalité de traitement parallèle, ce qui en fait un bon choix pour lire/transformer les données de stockage cloud, dans ce cas, AWS S3. J’ai eu beaucoup de succès en l’utilisant et je vais vous guider à travers les étapes de sa mise en œuvre.

Je vais également inclure certaines leçons et meilleures pratiques pour vous. En utilisant DuckDb, l’extension httpfs et pyarrow, nous pouvons traiter efficacement les fichiers Parquet stockés dans des buckets S3. Plongeons-y :

Avant de commencer l’installation de DuckDb, assurez-vous d’avoir ces prérequis :

Python 3.9 ou supérieur installé
Connaissance préalable de la configuration de projets Python et des environnements virtuels ou des environnements conda

Installation des dépendances

Tout d’abord, établissons l’environnement nécessaire :

Shell

# Install required packages for cloud integration

pip install "duckdb>=0.8.0" pyarrow pandas boto3 requests

Les dépendances expliquées :

duckdb>=0.8.0 : Le moteur de base de données principal qui fournit des fonctionnalités SQL et un traitement en mémoire
pyarrow : Gère efficacement les opérations sur les fichiers Parquet avec un support de stockage colonne
pandas : Permet des capacités puissantes de manipulation et d’analyse de données
boto3 : SDK AWS pour Python, fournissant des interfaces aux services AWS
requests : Gère les communications HTTP pour les interactions cloud

Configuration de l’accès sécurisé au cloud

Python

import duckdb

import os

​

# Initialize DuckDB with cloud support

conn = duckdb.connect(':memory:')

conn.execute("INSTALL httpfs;")

conn.execute("LOAD httpfs;")

​

# Secure AWS configuration

conn.execute("""

    SET s3_region='your-region';

    SET s3_access_key_id='your-access-key';

    SET s3_secret_access_key='your-secret-key';

""")

Ce code d’initialisation effectue plusieurs tâches importantes :

Crée une nouvelle connexion DuckDB en mémoire en utilisant :memory:
Installe et charge l’extension du système de fichiers HTTP (httpfs) qui permet l’accès au stockage cloud
Configure les informations d’identification AWS avec votre région spécifique et les clés d’accès
Met en place une connexion sécurisée aux services AWS

Traitement des fichiers Parquet AWS S3

Examinons un exemple complet de traitement des fichiers Parquet avec masquage des données sensibles :

Python

import duckdb

import pandas as pd

​

# Create sample data to demonstrate parquet processing

sample_data = pd.DataFrame({

    'name': ['John Smith', 'Jane Doe', 'Bob Wilson', 'Alice Brown'],

    'email': ['[email protected]', '[email protected]', '[email protected]', '[email protected]'],

    'phone': ['123-456-7890', '234-567-8901', '345-678-9012', '456-789-0123'],

    'ssn': ['123-45-6789', '234-56-7890', '345-67-8901', '456-78-9012'],

    'address': ['123 Main St', '456 Oak Ave', '789 Pine Rd', '321 Elm Dr'],

    'salary': [75000, 85000, 65000, 95000]  # Non-sensitive data

})

Cette création de données d’exemple nous aide à démontrer les techniques de masquage des données. Nous incluons divers types d’informations sensibles couramment trouvés dans des ensembles de données du monde réel :

Identifiants personnels (nom, SSN)
Informations de contact (email, téléphone, adresse)
Données financières (salaire)

Maintenant, examinons la fonction de traitement :

Python

def demonstrate_parquet_processing():

    # Create a DuckDB connection

    conn = duckdb.connect(':memory:')

    # Save sample data as parquet

    sample_data.to_parquet('sample_data.parquet')

    # Define sensitive columns to mask

    sensitive_cols = ['email', 'phone', 'ssn']

    # Process the parquet file with masking

    query = f"""

    CREATE TABLE masked_data AS

    SELECT 

        -- Mask name: keep first letter of first and last name

        regexp_replace(name, '([A-Z])[a-z]+ ([A-Z])[a-z]+', '\1*** \2***') as name,

        -- Mask email: hide everything before @

        regexp_replace(email, '([a-zA-Z0-9._%+-]+)(@.*)', '****\2') as email,

        -- Mask phone: show only last 4 digits

        regexp_replace(phone, '[0-9]{3}-[0-9]{3}-', '***-***-') as phone,

        -- Mask SSN: show only last 4 digits

        regexp_replace(ssn, '[0-9]{3}-[0-9]{2}-', '***-**-') as ssn,

        -- Mask address: show only street type

        regexp_replace(address, '[0-9]+ [A-Za-z]+ ', '*** ') as address,

        -- Keep non-sensitive data as is

        salary

    FROM read_parquet('sample_data.parquet');

    """

Étudions cette fonction de traitement en détail :

Nous créons une nouvelle connexion DuckDB
Convertissons notre DataFrame d’exemple en un fichier Parquet
Définissons quelles colonnes contiennent des informations sensibles
Créez une requête SQL qui applique différents modèles de masquage :
- Noms : Préserve les initiales (par exemple, « John Smith » → « J*** S*** »)
- Emails : Cache la partie locale tout en gardant le domaine (par exemple, « » → « ****@email.com »)
- Numéros de téléphone : Affiche uniquement les quatre derniers chiffres
- SSNs : Affiche uniquement les quatre derniers chiffres
- Adresses : Garde uniquement le type de rue
- Salaire : Reste non masqué en tant que donnée non sensible

La sortie devrait ressembler à :

Plain Text

Original Data:

=============

         name                   email           phone          ssn        address  salary

0  John Smith    [email protected]   123-456-7890  123-45-6789   123 Main St   75000

1   Jane Doe    [email protected]   234-567-8901  234-56-7890   456 Oak Ave   85000

2  Bob Wilson         [email protected]     345-678-9012  345-67-8901   789 Pine Rd   65000

3 Alice Brown      [email protected]     456-789-0123  456-78-9012   321 Elm Dr    95000

Masked Data:

===========

      name                email           phone          ssn     address  salary

0  J*** S***    ****@email.com     ***-***-7890  ***-**-6789   *** St   75000

1  J*** D***  ****@company.com     ***-***-8901  ***-**-7890   *** Ave   85000

2  B*** W***      ****@email.net   ***-***-9012  ***-**-8901   *** Rd   65000

3  A*** B***      ****@org.com     ***-***-0123  ***-**-9012   *** Dr    95000

Maintenant, explorons différents modèles de masquage avec des explications dans les commentaires des extraits de code Python :

Variations de masquage des emails

Python

# Show first letter only

"[email protected]" → "j***@email.com"

​

# Show domain only

"[email protected]" → "****@email.com"

​

# Show first and last letter

"[email protected]" → "j*********[email protected]"

Masquage des numéros de téléphone

Python

# Last 4 digits only

"123-456-7890" → "***-***-7890"

​

# First 3 digits only

"123-456-7890" → "123-***-****"

​

# Middle digits only

"123-456-7890" → "***-456-****"

Masquage des noms

Python

# Initials only

"John Smith" → "J.S."

​

# First letter of each word

"John Smith" → "J*** S***"

​

# Fixed length masking

"John Smith" → "XXXX XXXXX"

Traitement efficace des données partitionnées

Lorsqu’il s’agit de grands ensembles de données, la partition devient cruciale. Voici comment gérer efficacement les données partitionnées :

Python

def process_partitioned_data(base_path, partition_column, sensitive_columns):

    """

    Process partitioned data efficiently

    Parameters:

    - base_path: Base path to partitioned data

    - partition_column: Column used for partitioning (e.g., 'date')

    - sensitive_columns: List of columns to mask

    """

    conn = duckdb.connect(':memory:')

    try:

        # 1. List all partitions

        query = f"""

        WITH partitions AS (

            SELECT DISTINCT {partition_column}

            FROM read_parquet('{base_path}/*/*.parquet')

        )

        SELECT * FROM partitions;

        """

Cette fonction démontre plusieurs concepts importants :

Découverte dynamique des partitions
Traitement efficace de la mémoire
Gestion des erreurs avec nettoyage approprié
Génération de sortie de données masquées

La structure de partition ressemble généralement à :

Structure de Partition

Plain Text

sample_data/

├── date=2024-01-01/

│   └── data.parquet

├── date=2024-01-02/

│   └── data.parquet

└── date=2024-01-03/

    └── data.parquet

Données d’exemple

Plain Text

Original Data:

date        customer_id  email              phone           amount

2024-01-01  1           [email protected]    123-456-0001    500.00

2024-01-01  2           [email protected]    123-456-0002    750.25

...

Masked Data:

date        customer_id  email     phone        amount

2024-01-01  1           ****      ****         500.00

2024-01-01  2           ****      ****         750.25

Voici quelques avantages du traitement par partition :

Réduction de l’empreinte mémoire
Capacité de traitement parallèle
Amélioration des performances
Gestion évolutive des données

Techniques d’optimisation des performances

1. Configuration du Traitement Parallèle

Python

# Optimize for performance

conn.execute("""

    SET partial_streaming=true;

    SET threads=4;

    SET memory_limit='4GB';

""")

Ces paramètres :

Activer le streaming partiel pour une meilleure gestion de la mémoire
Définir des threads de traitement parallèle
Définir des limites de mémoire pour éviter les débordements

2. Gestion des Erreurs Robuste

Python

def robust_s3_read(s3_path, max_retries=3):

    """

    Implement reliable S3 data reading with retries.

    Parameters:

    - s3_path: Path to S3 data

    - max_retries: Maximum retry attempts

    """

    for attempt in range(max_retries):

        try:

            return conn.execute(f"SELECT * FROM read_parquet('{s3_path}')")

        except Exception as e:

            if attempt == max_retries - 1:

                raise

            time.sleep(2 ** attempt)  # Exponential backoff

Ce bloc de code montre comment implémenter des tentatives de nouveau et lancer des exceptions lorsque nécessaire afin de prendre des mesures proactives.

3. Optimisation du Stockage

Python

# Efficient data storage with compression

conn.execute("""

    COPY (SELECT * FROM masked_data)

    TO 's3://output-bucket/masked_data.parquet'

    (FORMAT 'parquet', COMPRESSION 'ZSTD');

""")

Ce bloc de code montre comment appliquer un type de compression de stockage pour optimiser le stockage.

Meilleures Pratiques et Recommandations

Meilleures Pratiques en Sécurité

La sécurité est cruciale lors de la manipulation des données, surtout dans les environnements cloud. En suivant ces pratiques, vous protégez les informations sensibles et respectez les normes de conformité :

Rôles IAM. Utilisez les rôles de gestion des accès et des identités AWS au lieu des clés d’accès direct lorsque c’est possible.
Rotation des clés. Mettez en œuvre une rotation régulière des clés d’accès
Moins de privilèges. Accordez les permissions minimales nécessaires
Surveillance d’accès. Examinez et auditez régulièrement les modèles d’accès

Pourquoi c’est important : Les violations de sécurité peuvent entraîner des fuites de données, des violations de conformité et des pertes financières. Des mesures de sécurité appropriées protègent à la fois votre organisation et les données de vos utilisateurs.

Optimisation des performances

L’optimisation des performances garantit une utilisation efficace des ressources et un traitement des données plus rapide :

Taille des partitions. Choisissez des tailles de partition appropriées en fonction du volume de données et des modèles de traitement
Traitement parallèle. Utilisez plusieurs threads pour un traitement plus rapide
Gestion de la mémoire. Surveillez et optimisez l’utilisation de la mémoire
Optimisation des requêtes. Structurez les requêtes pour une efficacité maximale

Pourquoi c’est important : Une performance efficace réduit le temps de traitement, économise des ressources informatiques et améliore la fiabilité globale du système.

Gestion des erreurs

Une gestion des erreurs robuste garantit un traitement fiable des données :

Mécanismes de réessai. Mettez en œuvre un retour exponentiel pour les opérations échouées
Journalisation complète. Maintenez des journaux détaillés pour le débogage
Surveillance de l’état. Suivez l’avancement du traitement
Cas particuliers. Gérez les scénarios de données inattendus

Pourquoi c’est important : La gestion correcte des erreurs empêche la perte de données, garantit l’achèvement du traitement et facilite le dépannage.

Conclusion

Le traitement des données dans le cloud avec DuckDB et AWS S3 offre une combinaison puissante de performances et de sécurité. Faites-moi savoir comment se passe la mise en œuvre de votre DuckDB !gestion des erreurs

Source:
https://dzone.com/articles/processing-cloud-data-duckdb-aws