使用 DuckDB 和 AWS S3 处理云数据

教程

AWS

DuckDb 是一个强大的内存数据库，具有并行处理功能，使其成为读取/转换云存储数据（在这种情况下为 AWS S3）的良好选择。我在使用它时取得了很大成功，现在我将引导您实现它的步骤。

我还将为您提供一些经验教训和最佳实践。使用 DuckDb、httpfs 扩展和 pyarrow，我们可以高效地处理存储在 S3 桶中的 Parquet 文件。让我们开始吧：

在开始安装 DuckDb 之前，请确保您具备以下先决条件：

已安装 Python 3.9 或更高版本
事先了解设置 Python 项目和虚拟环境或 conda 环境

安装依赖项

首先，让我们建立必要的环境：

Shell

# Install required packages for cloud integration

pip install "duckdb>=0.8.0" pyarrow pandas boto3 requests

依赖项说明：

duckdb>=0.8.0：提供 SQL 功能和内存处理的核心数据库引擎
pyarrow：高效处理 Parquet 文件操作，支持列式存储
pandas：提供强大的数据处理和分析能力
boto3：AWS 的 Python SDK，提供与 AWS 服务的接口
requests：管理云交互的 HTTP 通信

配置安全云访问

Python

import duckdb

import os

​

# Initialize DuckDB with cloud support

conn = duckdb.connect(':memory:')

conn.execute("INSTALL httpfs;")

conn.execute("LOAD httpfs;")

​

# Secure AWS configuration

conn.execute("""

    SET s3_region='your-region';

    SET s3_access_key_id='your-access-key';

    SET s3_secret_access_key='your-secret-key';

""")

此初始化代码执行几个重要操作：

在内存中创建一个新的 DuckDB 连接，使用 :memory:
安装并加载 HTTP 文件系统扩展（httpfs），以启用云存储访问
使用您的特定区域和访问密钥配置 AWS 凭证
建立与 AWS 服务的安全连接

处理 AWS S3 Parquet 文件

让我们查看一个完整的处理 Parquet 文件的示例，包含敏感数据掩码：

Python

import duckdb

import pandas as pd

​

# Create sample data to demonstrate parquet processing

sample_data = pd.DataFrame({

    'name': ['John Smith', 'Jane Doe', 'Bob Wilson', 'Alice Brown'],

    'email': ['[email protected]', '[email protected]', '[email protected]', '[email protected]'],

    'phone': ['123-456-7890', '234-567-8901', '345-678-9012', '456-789-0123'],

    'ssn': ['123-45-6789', '234-56-7890', '345-67-8901', '456-78-9012'],

    'address': ['123 Main St', '456 Oak Ave', '789 Pine Rd', '321 Elm Dr'],

    'salary': [75000, 85000, 65000, 95000]  # Non-sensitive data

})

此示例数据创建帮助我们演示数据掩码技术。我们包括各种在现实世界数据集中常见的敏感信息类型：

个人标识符（姓名，社会安全号码）
联系信息（电子邮件，电话，地址）
财务数据（薪水）

现在，让我们看看处理函数：

Python

def demonstrate_parquet_processing():

    # Create a DuckDB connection

    conn = duckdb.connect(':memory:')

    # Save sample data as parquet

    sample_data.to_parquet('sample_data.parquet')

    # Define sensitive columns to mask

    sensitive_cols = ['email', 'phone', 'ssn']

    # Process the parquet file with masking

    query = f"""

    CREATE TABLE masked_data AS

    SELECT 

        -- Mask name: keep first letter of first and last name

        regexp_replace(name, '([A-Z])[a-z]+ ([A-Z])[a-z]+', '\1*** \2***') as name,

        -- Mask email: hide everything before @

        regexp_replace(email, '([a-zA-Z0-9._%+-]+)(@.*)', '****\2') as email,

        -- Mask phone: show only last 4 digits

        regexp_replace(phone, '[0-9]{3}-[0-9]{3}-', '***-***-') as phone,

        -- Mask SSN: show only last 4 digits

        regexp_replace(ssn, '[0-9]{3}-[0-9]{2}-', '***-**-') as ssn,

        -- Mask address: show only street type

        regexp_replace(address, '[0-9]+ [A-Za-z]+ ', '*** ') as address,

        -- Keep non-sensitive data as is

        salary

    FROM read_parquet('sample_data.parquet');

    """

让我们分解这个处理函数：

我们创建一个新的 DuckDB 连接
将我们的示例 DataFrame 转换为 Parquet 文件
定义哪些列包含敏感信息
创建一个应用不同掩码模式的 SQL 查询：
- 姓名：保留首字母（例如，“John Smith” → “J*** S***”）
- 电子邮件：隐藏本地部分，同时保留域名（例如，“” → “****@email.com”）
- 电话号码：仅显示最后四位数字
- 社会安全号码：仅显示最后四位数字
- 地址：仅保留街道类型
- 薪资：保持未掩码，因为它是非敏感数据

输出应如下所示：

Plain Text

Original Data:

=============

         name                   email           phone          ssn        address  salary

0  John Smith    [email protected]   123-456-7890  123-45-6789   123 Main St   75000

1   Jane Doe    [email protected]   234-567-8901  234-56-7890   456 Oak Ave   85000

2  Bob Wilson         [email protected]     345-678-9012  345-67-8901   789 Pine Rd   65000

3 Alice Brown      [email protected]     456-789-0123  456-78-9012   321 Elm Dr    95000

Masked Data:

===========

      name                email           phone          ssn     address  salary

0  J*** S***    ****@email.com     ***-***-7890  ***-**-6789   *** St   75000

1  J*** D***  ****@company.com     ***-***-8901  ***-**-7890   *** Ave   85000

2  B*** W***      ****@email.net   ***-***-9012  ***-**-8901   *** Rd   65000

3  A*** B***      ****@org.com     ***-***-0123  ***-**-9012   *** Dr    95000

现在，让我们在 Python 代码片段的注释中探索不同的掩码模式：

电子邮件掩码变体

Python

# Show first letter only

"[email protected]" → "j***@email.com"

​

# Show domain only

"[email protected]" → "****@email.com"

​

# Show first and last letter

"[email protected]" → "j*********[email protected]"

电话号码掩码

Python

# Last 4 digits only

"123-456-7890" → "***-***-7890"

​

# First 3 digits only

"123-456-7890" → "123-***-****"

​

# Middle digits only

"123-456-7890" → "***-456-****"

姓名掩码

Python

# Initials only

"John Smith" → "J.S."

​

# First letter of each word

"John Smith" → "J*** S***"

​

# Fixed length masking

"John Smith" → "XXXX XXXXX"

高效的分区数据处理

在处理大型数据集时，分区变得至关重要。以下是如何高效处理分区数据的方法：

Python

def process_partitioned_data(base_path, partition_column, sensitive_columns):

    """

    Process partitioned data efficiently

    Parameters:

    - base_path: Base path to partitioned data

    - partition_column: Column used for partitioning (e.g., 'date')

    - sensitive_columns: List of columns to mask

    """

    conn = duckdb.connect(':memory:')

    try:

        # 1. List all partitions

        query = f"""

        WITH partitions AS (

            SELECT DISTINCT {partition_column}

            FROM read_parquet('{base_path}/*/*.parquet')

        )

        SELECT * FROM partitions;

        """

此函数演示了几个重要概念：

动态分区发现
高效处理内存
适当清理错误处理
生成蒙面数据输出

分区结构通常如下所示：

分区结构

Plain Text

sample_data/

├── date=2024-01-01/

│   └── data.parquet

├── date=2024-01-02/

│   └── data.parquet

└── date=2024-01-03/

    └── data.parquet

样本数据

Plain Text

Original Data:

date        customer_id  email              phone           amount

2024-01-01  1           [email protected]    123-456-0001    500.00

2024-01-01  2           [email protected]    123-456-0002    750.25

...

Masked Data:

date        customer_id  email     phone        amount

2024-01-01  1           ****      ****         500.00

2024-01-01  2           ****      ****         750.25

以下是分区处理的一些好处：

减少内存占用
并行处理能力
提高性能
可扩展的数据处理

性能优化技术

1. 配置并行处理

Python

# Optimize for performance

conn.execute("""

    SET partial_streaming=true;

    SET threads=4;

    SET memory_limit='4GB';

""")

这些设置：

启用部分流式处理以实现更好的内存管理
设置并行处理线程
定义内存限制以防止溢出

2. 健壮的错误处理

Python

def robust_s3_read(s3_path, max_retries=3):

    """

    Implement reliable S3 data reading with retries.

    Parameters:

    - s3_path: Path to S3 data

    - max_retries: Maximum retry attempts

    """

    for attempt in range(max_retries):

        try:

            return conn.execute(f"SELECT * FROM read_parquet('{s3_path}')")

        except Exception as e:

            if attempt == max_retries - 1:

                raise

            time.sleep(2 ** attempt)  # Exponential backoff

此代码块演示了如何实现重试，以及在需要时抛出异常以采取积极措施。

3. 存储优化

Python

# Efficient data storage with compression

conn.execute("""

    COPY (SELECT * FROM masked_data)

    TO 's3://output-bucket/masked_data.parquet'

    (FORMAT 'parquet', COMPRESSION 'ZSTD');

""")

此代码块演示了应用存储压缩类型以优化存储。

最佳实践和建议

安全最佳实践

在处理数据时，尤其是在云环境中，安全至关重要。遵循这些实践有助于保护敏感信息并保持合规性：

IAM 角色。尽可能使用 AWS 身份和访问管理角色，而不是直接访问密钥。
密钥轮换。实现访问密钥的定期轮换
最小权限。授予最低必要权限
访问监控。定期审查和审计访问模式

重要性：安全漏洞可能导致数据泄露、合规性违规和财务损失。适当的安全措施保护您的组织和用户数据。

性能优化

优化性能可确保资源利用效率高和数据处理更快：

分区大小。根据数据量和处理模式选择适当的分区大小
并行处理。利用多个线程进行更快处理
内存管理。监控并优化内存使用
查询优化。为最大效率构建查询

重要性：高效的性能减少处理时间，节省计算资源，并提高整体系统可靠性。

错误处理

健壮的错误处理确保可靠的数据处理：

重试机制。为失败操作实施指数回退
全面记录。维护详细日志以供调试
状态监控。跟踪处理进度
边缘案例。处理意外数据情况

为什么重要：

适当的错误处理可以防止数据丢失，确保处理完整性，并简化故障排除。

结论使用DuckDB和AWS S3的云数据处理提供了性能和安全性的强大组合。让我知道你的DuckDB实施进展如何！错误处理

Source:
https://dzone.com/articles/processing-cloud-data-duckdb-aws