Обработка облачных данных с помощью DuckDB и AWS S3

AWS

DuckDb – это мощная база данных в памяти с функцией параллельной обработки, что делает ее отличным выбором для чтения/преобразования данных облачного хранилища, в данном случае, AWS S3. Я добился больших успехов, используя ее, и проведу вас через шаги по ее реализации.

Я также поделюсь некоторыми уроками и лучшими практиками. Используя DuckDb, расширение httpfs и pyarrow, мы можем эффективно обрабатывать файлы Parquet, хранящиеся в бакетах S3. Давайте приступим:

Прежде чем начать установку DuckDb, убедитесь, что у вас есть следующие предпосылки:

Установлен Python 3.9 или выше
Предварительное знание настройки проектов на Python и виртуальных сред или сред conda

Установка зависимостей

Сначала давайте создадим необходимую среду:

Shell

# Install required packages for cloud integration

pip install "duckdb>=0.8.0" pyarrow pandas boto3 requests

Объяснение зависимостей:

duckdb>=0.8.0: Основной движок базы данных, предоставляющий функционал SQL и обработку в памяти
pyarrow: Обрабатывает операции с файлами Parquet эффективно с поддержкой столбчатого хранения
pandas: Обеспечивает мощные возможности манипулирования и анализа данных
boto3: AWS SDK для Python, предоставляющий интерфейсы к сервисам AWS
requests: Управляет HTTP-коммуникациями для взаимодействия с облаком.

Настройка безопасного доступа к облаку

Python

import duckdb

import os

​

# Initialize DuckDB with cloud support

conn = duckdb.connect(':memory:')

conn.execute("INSTALL httpfs;")

conn.execute("LOAD httpfs;")

​

# Secure AWS configuration

conn.execute("""

    SET s3_region='your-region';

    SET s3_access_key_id='your-access-key';

    SET s3_secret_access_key='your-secret-key';

""")

Этот инициализационный код выполняет несколько важных действий:

Создает новое соединение DuckDB в памяти, используя :memory:
Устанавливает и загружает расширение HTTP файловой системы (httpfs), которое позволяет доступ к облачному хранилищу
Настраивает учетные данные AWS с вашим конкретным регионом и ключами доступа
Устанавливает безопасное соединение с услугами AWS

Обработка файлов Parquet в AWS S3

Давайте рассмотрим всеобъемлющий пример обработки файлов Parquet с маскировкой чувствительных данных:

Python

import duckdb

import pandas as pd

​

# Create sample data to demonstrate parquet processing

sample_data = pd.DataFrame({

    'name': ['John Smith', 'Jane Doe', 'Bob Wilson', 'Alice Brown'],

    'email': ['[email protected]', '[email protected]', '[email protected]', '[email protected]'],

    'phone': ['123-456-7890', '234-567-8901', '345-678-9012', '456-789-0123'],

    'ssn': ['123-45-6789', '234-56-7890', '345-67-8901', '456-78-9012'],

    'address': ['123 Main St', '456 Oak Ave', '789 Pine Rd', '321 Elm Dr'],

    'salary': [75000, 85000, 65000, 95000]  # Non-sensitive data

})

Создание этих образцов данных помогает продемонстрировать методы маскировки данных. Мы включаем различные типы чувствительной информации, обычно встречающейся в реальных наборах данных:

Личные идентификаторы (имя, ССН)
Контактная информация (электронная почта, телефон, адрес)
Финансовые данные (зарплата)

Теперь давайте посмотрим на функцию обработки:

Python

def demonstrate_parquet_processing():

    # Create a DuckDB connection

    conn = duckdb.connect(':memory:')

    # Save sample data as parquet

    sample_data.to_parquet('sample_data.parquet')

    # Define sensitive columns to mask

    sensitive_cols = ['email', 'phone', 'ssn']

    # Process the parquet file with masking

    query = f"""

    CREATE TABLE masked_data AS

    SELECT 

        -- Mask name: keep first letter of first and last name

        regexp_replace(name, '([A-Z])[a-z]+ ([A-Z])[a-z]+', '\1*** \2***') as name,

        -- Mask email: hide everything before @

        regexp_replace(email, '([a-zA-Z0-9._%+-]+)(@.*)', '****\2') as email,

        -- Mask phone: show only last 4 digits

        regexp_replace(phone, '[0-9]{3}-[0-9]{3}-', '***-***-') as phone,

        -- Mask SSN: show only last 4 digits

        regexp_replace(ssn, '[0-9]{3}-[0-9]{2}-', '***-**-') as ssn,

        -- Mask address: show only street type

        regexp_replace(address, '[0-9]+ [A-Za-z]+ ', '*** ') as address,

        -- Keep non-sensitive data as is

        salary

    FROM read_parquet('sample_data.parquet');

    """

Разберем эту функцию обработки:

Мы создаем новое соединение DuckDB
Конвертируем наш образец DataFrame в файл Parquet
Определяем, какие столбцы содержат чувствительную информацию
Создайте SQL-запрос, который применяет различные шаблоны маскировки:
- Имена: Сохраняет инициалы (например, “Джон Смит” → “Д*** С***”)
- Электронные почты: Скрывает локальную часть, сохраняя домен (например, “” → “****@email.com”)
- Номера телефонов: Показывает только последние четыре цифры
- Социальные номера: Отображает только последние четыре цифры
- Адреса: Сохраняет только тип улицы
- Зарплата: Остается незащищенной, так как не является чувствительными данными

Вывод должен выглядеть так:

Plain Text

Original Data:

=============

         name                   email           phone          ssn        address  salary

0  John Smith    [email protected]   123-456-7890  123-45-6789   123 Main St   75000

1   Jane Doe    [email protected]   234-567-8901  234-56-7890   456 Oak Ave   85000

2  Bob Wilson         [email protected]     345-678-9012  345-67-8901   789 Pine Rd   65000

3 Alice Brown      [email protected]     456-789-0123  456-78-9012   321 Elm Dr    95000

Masked Data:

===========

      name                email           phone          ssn     address  salary

0  J*** S***    ****@email.com     ***-***-7890  ***-**-6789   *** St   75000

1  J*** D***  ****@company.com     ***-***-8901  ***-**-7890   *** Ave   85000

2  B*** W***      ****@email.net   ***-***-9012  ***-**-8901   *** Rd   65000

3  A*** B***      ****@org.com     ***-***-0123  ***-**-9012   *** Dr    95000

Теперь давайте изучим различные шаблоны маскировки с объяснениями в комментариях к фрагментам кода на Python:

Вариации маскировки электронной почты

Python

# Show first letter only

"[email protected]" → "j***@email.com"

​

# Show domain only

"[email protected]" → "****@email.com"

​

# Show first and last letter

"[email protected]" → "j*********[email protected]"

Маскировка номера телефона

Python

# Last 4 digits only

"123-456-7890" → "***-***-7890"

​

# First 3 digits only

"123-456-7890" → "123-***-****"

​

# Middle digits only

"123-456-7890" → "***-456-****"

Маскировка имен

Python

# Initials only

"John Smith" → "J.S."

​

# First letter of each word

"John Smith" → "J*** S***"

​

# Fixed length masking

"John Smith" → "XXXX XXXXX"

Эффективная обработка данных в разбиении

При работе с большими наборами данных разбиение становится решающим. Вот как эффективно обрабатывать разбиенные данные:

Python

def process_partitioned_data(base_path, partition_column, sensitive_columns):

    """

    Process partitioned data efficiently

    Parameters:

    - base_path: Base path to partitioned data

    - partition_column: Column used for partitioning (e.g., 'date')

    - sensitive_columns: List of columns to mask

    """

    conn = duckdb.connect(':memory:')

    try:

        # 1. List all partitions

        query = f"""

        WITH partitions AS (

            SELECT DISTINCT {partition_column}

            FROM read_parquet('{base_path}/*/*.parquet')

        )

        SELECT * FROM partitions;

        """

Эта функция демонстрирует несколько важных концепций:

Динамическое обнаружение разбиений
Эффективная обработка памяти
Обработка ошибок с правильной очисткой
Генерация выходных данных с маскированной информацией

Структура разделов обычно выглядит следующим образом:

Структура раздела

Plain Text

sample_data/

├── date=2024-01-01/

│   └── data.parquet

├── date=2024-01-02/

│   └── data.parquet

└── date=2024-01-03/

    └── data.parquet

Пример данных

Plain Text

Original Data:

date        customer_id  email              phone           amount

2024-01-01  1           [email protected]    123-456-0001    500.00

2024-01-01  2           [email protected]    123-456-0002    750.25

...

Masked Data:

date        customer_id  email     phone        amount

2024-01-01  1           ****      ****         500.00

2024-01-01  2           ****      ****         750.25

Ниже приведены некоторые преимущества раздельной обработки:

Сниженное использование памяти
Возможности параллельной обработки
Улучшенная производительность
Масштабируемая обработка данных

Методы оптимизации производительности

1. Настройка параллельной обработки

Python

# Optimize for performance

conn.execute("""

    SET partial_streaming=true;

    SET threads=4;

    SET memory_limit='4GB';

""")

Эти параметры:

Включить частичную потоковую передачу для лучшего управления памятью
Установить потоки параллельной обработки
Определить лимиты памяти для предотвращения переполнения

2. Надежная обработка ошибок

Python

def robust_s3_read(s3_path, max_retries=3):

    """

    Implement reliable S3 data reading with retries.

    Parameters:

    - s3_path: Path to S3 data

    - max_retries: Maximum retry attempts

    """

    for attempt in range(max_retries):

        try:

            return conn.execute(f"SELECT * FROM read_parquet('{s3_path}')")

        except Exception as e:

            if attempt == max_retries - 1:

                raise

            time.sleep(2 ** attempt)  # Exponential backoff

Этот блок кода демонстрирует, как реализовать повторные попытки и выбрасывать исключения, когда это необходимо, чтобы предпринять проактивные меры.

3. Оптимизация хранения

Python

# Efficient data storage with compression

conn.execute("""

    COPY (SELECT * FROM masked_data)

    TO 's3://output-bucket/masked_data.parquet'

    (FORMAT 'parquet', COMPRESSION 'ZSTD');

""")

Этот блок кода демонстрирует применение типа сжатия для оптимизации хранения.

Лучшие практики и рекомендации

Лучшие практики безопасности

Безопасность имеет решающее значение при обработке данных, особенно в облачных средах. Следование этим практикам помогает защитить конфиденциальную информацию и поддерживать соответствие:

Роли IAM. Используйте роли управления идентификацией и доступом AWS вместо прямых ключей доступа, когда это возможно.
Поворот ключей. Реализуйте регулярный поворот ключей доступа
Принцип наименьших привилегий. Предоставьте минимально необходимые разрешения
Мониторинг доступа. Регулярно проверяйте и аудитируйте шаблоны доступа

Почему это важно: Нарушения безопасности могут привести к утечкам данных, нарушениям соответствия и финансовым потерям. Правильные меры безопасности защищают как вашу организацию, так и данные ваших пользователей.

Оптимизация производительности

Оптимизация производительности обеспечивает эффективное использование ресурсов и более быструю обработку данных:

Выбор размера разделов. Выбирайте соответствующие размеры разделов на основе объема данных и шаблонов обработки
Параллельная обработка. Используйте несколько потоков для более быстрой обработки
Управление памятью. Отслеживайте и оптимизируйте использование памяти
Оптимизация запросов. Структурируйте запросы для максимальной эффективности

Почему это важно: Эффективная производительность сокращает время обработки, экономит вычислительные ресурсы и повышает общую надежность системы.

Обработка ошибок

Надежная обработка ошибок обеспечивает надежную обработку данных:

Механизмы повтора. Реализуйте экспоненциальное замедление для неудачных операций
Полное ведение журналов. Ведите детальные журналы для отладки
Мониторинг статуса. Отслеживайте прогресс обработки
Граничные случаи. Обрабатывайте неожиданные сценарии данных

Почему это важно: Надлежащая обработка ошибок предотвращает потерю данных, обеспечивает завершенность обработки и упрощает устранение неполадок.

Заключение

Облачная обработка данных с использованием DuckDB и AWS S3 предлагает мощное сочетание производительности и безопасности. Дайте мне знать, как у вас пройдет внедрение DuckDB!обработка ошибок

Source:
https://dzone.com/articles/processing-cloud-data-duckdb-aws