DuckDB 및 AWS S3를 사용하여 클라우드 데이터 처리

AWS

DuckDb는 병렬 처리 기능을 갖춘 강력한 인메모리 데이터베이스로, 클라우드 스토리지 데이터, 이 경우 AWS S3를 읽거나 변환하는 데 좋은 선택지입니다. 저는 이를 사용하여 많은 성공을 거두었으며, 당신에게 구현하는 단계를 안내해 드리겠습니다.

또한 사용자들을 위한 몇 가지 학습 내용과 모범 사례를 포함할 것입니다. DuckDb, httpfs 확장 기능, 그리고 pyarrow를 사용하여 S3 버킷에 저장된 Parquet 파일을 효율적으로 처리할 수 있습니다. 이제 시작해 봅시다:

DuckDb를 설치하기 전에, 다음 사항을 준비해야 합니다:

Python 3.9 이상이 설치되어 있어야 합니다.
Python 프로젝트 설정 및 가상 환경 또는 conda 환경 설정에 대한 사전 지식이 필요합니다.

의존성 설치

먼저 필요한 환경을 설정합시다:

Shell

# Install required packages for cloud integration

pip install "duckdb>=0.8.0" pyarrow pandas boto3 requests

필요한 의존성은 다음과 같습니다:

duckdb>=0.8.0: SQL 기능과 인메모리 처리를 제공하는 핵심 데이터베이스 엔진
pyarrow: 열 지향 저장 지원으로 Parquet 파일 작업을 효율적으로 처리합니다
pandas: 강력한 데이터 조작 및 분석 기능을 제공합니다
boto3: AWS 서비스에 대한 인터페이스를 제공하는 Python용 AWS SDK
requests: 클라우드 상호 작용을 위해 HTTP 통신을 관리합니다

안전한 클라우드 액세스 구성

Python

import duckdb

import os

​

# Initialize DuckDB with cloud support

conn = duckdb.connect(':memory:')

conn.execute("INSTALL httpfs;")

conn.execute("LOAD httpfs;")

​

# Secure AWS configuration

conn.execute("""

    SET s3_region='your-region';

    SET s3_access_key_id='your-access-key';

    SET s3_secret_access_key='your-secret-key';

""")

이 초기화 코드는 여러 가지 중요한 작업을 수행합니다:

:memory:를 사용하여 메모리에 새로운 DuckDB 연결을 생성
클라우드 저장소 액세스를 가능하게 하는 HTTP 파일 시스템 확장 기능(httpfs)을 설치하고 로드
지정된 지역 및 액세스 키로 AWS 자격 증명 구성
AWS 서비스로의 안전한 연결 설정

AWS S3 Parquet 파일 처리

민감한 데이터 마스킹과 함께 Parquet 파일 처리의 포괄적인 예제를 살펴봅시다:

Python

import duckdb

import pandas as pd

​

# Create sample data to demonstrate parquet processing

sample_data = pd.DataFrame({

    'name': ['John Smith', 'Jane Doe', 'Bob Wilson', 'Alice Brown'],

    'email': ['[email protected]', '[email protected]', '[email protected]', '[email protected]'],

    'phone': ['123-456-7890', '234-567-8901', '345-678-9012', '456-789-0123'],

    'ssn': ['123-45-6789', '234-56-7890', '345-67-8901', '456-78-9012'],

    'address': ['123 Main St', '456 Oak Ave', '789 Pine Rd', '321 Elm Dr'],

    'salary': [75000, 85000, 65000, 95000]  # Non-sensitive data

})

이 샘플 데이터 생성은 데이터 마스킹 기술을 시연하는 데 도움이 됩니다. 실제 세계 데이터셋에서 자주 발견되는 다양한 유형의 민감한 정보를 포함합니다:

개인 식별자 (이름, SSN)
연락처 정보 (이메일, 전화, 주소)
금융 데이터 (급여)

이제 처리 함수를 살펴보겠습니다:

Python

def demonstrate_parquet_processing():

    # Create a DuckDB connection

    conn = duckdb.connect(':memory:')

    # Save sample data as parquet

    sample_data.to_parquet('sample_data.parquet')

    # Define sensitive columns to mask

    sensitive_cols = ['email', 'phone', 'ssn']

    # Process the parquet file with masking

    query = f"""

    CREATE TABLE masked_data AS

    SELECT 

        -- Mask name: keep first letter of first and last name

        regexp_replace(name, '([A-Z])[a-z]+ ([A-Z])[a-z]+', '\1*** \2***') as name,

        -- Mask email: hide everything before @

        regexp_replace(email, '([a-zA-Z0-9._%+-]+)(@.*)', '****\2') as email,

        -- Mask phone: show only last 4 digits

        regexp_replace(phone, '[0-9]{3}-[0-9]{3}-', '***-***-') as phone,

        -- Mask SSN: show only last 4 digits

        regexp_replace(ssn, '[0-9]{3}-[0-9]{2}-', '***-**-') as ssn,

        -- Mask address: show only street type

        regexp_replace(address, '[0-9]+ [A-Za-z]+ ', '*** ') as address,

        -- Keep non-sensitive data as is

        salary

    FROM read_parquet('sample_data.parquet');

    """

이 처리 함수를 자세히 살펴보겠습니다:

새로운 DuckDB 연결 생성
샘플 DataFrame을 Parquet 파일로 변환
민감한 정보를 포함하는 열을 정의
SQL 쿼리를 만들어 다른 마스킹 패턴을 적용합니다:
- 이름: 이니셜을 보존합니다 (예: “John Smith” → “J*** S***”)
- 이메일: 도메인은 유지하면서 로컬 부분을 숨깁니다 (예: “” → “****@email.com”)
- 전화번호: 마지막 네 자릿수만 표시합니다
- 주민등록번호: 마지막 네 자릿수만 표시합니다
- 주소: 거리 유형만 유지합니다
- 급여: 민감하지 않은 데이터로 마스킹되지 않습니다

결과는 다음과 같아야 합니다:

Plain Text

Original Data:

=============

         name                   email           phone          ssn        address  salary

0  John Smith    [email protected]   123-456-7890  123-45-6789   123 Main St   75000

1   Jane Doe    [email protected]   234-567-8901  234-56-7890   456 Oak Ave   85000

2  Bob Wilson         [email protected]     345-678-9012  345-67-8901   789 Pine Rd   65000

3 Alice Brown      [email protected]     456-789-0123  456-78-9012   321 Elm Dr    95000

Masked Data:

===========

      name                email           phone          ssn     address  salary

0  J*** S***    ****@email.com     ***-***-7890  ***-**-6789   *** St   75000

1  J*** D***  ****@company.com     ***-***-8901  ***-**-7890   *** Ave   85000

2  B*** W***      ****@email.net   ***-***-9012  ***-**-8901   *** Rd   65000

3  A*** B***      ****@org.com     ***-***-0123  ***-**-9012   *** Dr    95000

이제 Python 코드 스니펫의 주석에서 다양한 마스킹 패턴을 살펴보겠습니다:

이메일 마스킹 변형

Python

# Show first letter only

"[email protected]" → "j***@email.com"

​

# Show domain only

"[email protected]" → "****@email.com"

​

# Show first and last letter

"[email protected]" → "j*********[email protected]"

전화번호 마스킹

Python

# Last 4 digits only

"123-456-7890" → "***-***-7890"

​

# First 3 digits only

"123-456-7890" → "123-***-****"

​

# Middle digits only

"123-456-7890" → "***-456-****"

이름 마스킹

Python

# Initials only

"John Smith" → "J.S."

​

# First letter of each word

"John Smith" → "J*** S***"

​

# Fixed length masking

"John Smith" → "XXXX XXXXX"

효율적인 분할 데이터 처리

대규모 데이터 집합을 다룰 때, 분할이 중요해집니다. 분할된 데이터를 효율적으로 처리하는 방법은 다음과 같습니다:

Python

def process_partitioned_data(base_path, partition_column, sensitive_columns):

    """

    Process partitioned data efficiently

    Parameters:

    - base_path: Base path to partitioned data

    - partition_column: Column used for partitioning (e.g., 'date')

    - sensitive_columns: List of columns to mask

    """

    conn = duckdb.connect(':memory:')

    try:

        # 1. List all partitions

        query = f"""

        WITH partitions AS (

            SELECT DISTINCT {partition_column}

            FROM read_parquet('{base_path}/*/*.parquet')

        )

        SELECT * FROM partitions;

        """

이 함수는 여러 중요한 개념을 보여줍니다:

동적 분할 발견
메모리 효율적인 처리
적절한 정리를 통한 오류 처리
마스킹된 데이터 출력 생성

파티션 구조는 일반적으로 다음과 같습니다:

파티션 구조

Plain Text

sample_data/

├── date=2024-01-01/

│   └── data.parquet

├── date=2024-01-02/

│   └── data.parquet

└── date=2024-01-03/

    └── data.parquet

샘플 데이터

Plain Text

Original Data:

date        customer_id  email              phone           amount

2024-01-01  1           [email protected]    123-456-0001    500.00

2024-01-01  2           [email protected]    123-456-0002    750.25

...

Masked Data:

date        customer_id  email     phone        amount

2024-01-01  1           ****      ****         500.00

2024-01-01  2           ****      ****         750.25

파티션 처리의 몇 가지 이점은 다음과 같습니다:

메모리 발자국 감소
병렬 처리 기능
성능 개선
확장 가능한 데이터 처리

성능 최적화 기술

1. 병렬 처리 구성

Python

# Optimize for performance

conn.execute("""

    SET partial_streaming=true;

    SET threads=4;

    SET memory_limit='4GB';

""")

이 설정:

더 나은 메모리 관리를 위한 부분 스트리밍 활성화
병렬 처리 스레드 설정
오버플로우 방지를 위한 메모리 한계 정의

2. 강력한 오류 처리

Python

def robust_s3_read(s3_path, max_retries=3):

    """

    Implement reliable S3 data reading with retries.

    Parameters:

    - s3_path: Path to S3 data

    - max_retries: Maximum retry attempts

    """

    for attempt in range(max_retries):

        try:

            return conn.execute(f"SELECT * FROM read_parquet('{s3_path}')")

        except Exception as e:

            if attempt == max_retries - 1:

                raise

            time.sleep(2 ** attempt)  # Exponential backoff

이 코드 블록은 재시도를 구현하는 방법과 필요할 때 예외를 발생시켜 사전 조치를 취하는 방법을 보여줍니다.

3. 저장소 최적화

Python

# Efficient data storage with compression

conn.execute("""

    COPY (SELECT * FROM masked_data)

    TO 's3://output-bucket/masked_data.parquet'

    (FORMAT 'parquet', COMPRESSION 'ZSTD');

""")

이 코드 블록은 저장소를 최적화하기 위한 저장소 압축 유형을 적용하는 방법을 보여줍니다.

모범 사례 및 권장 사항

보안 모범 사례

데이터를 처리할 때 보안은 매우 중요하며, 특히 클라우드 환경에서 더욱 그렇습니다. 이러한 관행을 따르면 민감한 정보를 보호하고 규정을 준수하는 데 도움이 됩니다:

IAM 역할. 가능할 경우 직접 접근 키 대신 AWS Identity and Access Management 역할을 사용하세요.
키 회전. 액세스 키의 정기적인 회전 구현
최소 권한. 최소한의 필요한 권한 부여
액세스 모니터링. 정기적으로 액세스 패턴을 검토하고 감사

중요성: 보안 침해는 데이터 유출, 규정 위반 및 재정적 손실로 이어질 수 있습니다. 적절한 보안 조치는 귀하의 조직과 사용자 데이터를 모두 보호합니다.

성능 최적화

성능 최적화는 효율적인 자원 활용과 빠른 데이터 처리를 보장합니다:

파티션 크기 조정. 데이터 양과 처리 패턴에 기반한 적절한 파티션 크기 선택
병렬 처리. 더 빠른 처리를 위해 여러 스레드 활용
메모리 관리. 메모리 사용량 모니터링 및 최적화
쿼리 최적화. 최대 효율성을 위해 쿼리 구조화

중요성: 효율적인 성능은 처리 시간을 줄이고, 계산 자원을 절약하며 전체 시스템 신뢰성을 향상시킵니다.

오류 처리

강력한 오류 처리는 신뢰할 수 있는 데이터 처리를 보장합니다:

다시 시도 메커니즘. 실패한 작업에 대한 지수 백오프 구현
종합 로깅. 디버깅을 위한 상세 로그 유지
상태 모니터링. 처리 진행 상황 추적
특이 케이스. 예상치 못한 데이터 시나리오 처리

왜 중요한가: 적절한 오류 처리는 데이터 손실을 방지하고 처리 완료를 보장하며 문제 해결을 쉽게 만듭니다.

결론

DuckDB와 AWS S3를 사용한 클라우드 데이터 처리는 성능과 보안의 강력한 조합을 제공합니다. DuckDB 구현이 어떻게 진행되는지 알려주세요!오류 처리

Source:
https://dzone.com/articles/processing-cloud-data-duckdb-aws