معالجة بيانات السحابة باستخدام DuckDB و AWS S3

AWS

DuckDb هو قاعدة بيانات قوية في الذاكرة تتمتع بميزة المعالجة المتوازية، مما يجعلها خيارًا جيدًا لقراءة/تحويل بيانات التخزين السحابي، في هذه الحالة، AWS S3. لقد حققت نجاحًا كبيرًا في استخدامها وسأرشدك إلى الخطوات اللازمة لتنفيذها.

سأضيف أيضًا بعض الدروس وأفضل الممارسات لك. باستخدام DuckDb و httpfs و pyarrow، يمكننا معالجة ملفات Parquet المخزنة في دلو S3 بكفاءة. دعنا نبدأ:

قبل البدء في تثبيت DuckDb، تأكد من أن لديك هذه المتطلبات المسبقة:

Python 3.9 أو أعلى مثبت
معرفة سابقة بـ إعداد مشاريع Python والبيئات الافتراضية أو بيئات كوندا

تثبيت الاعتماديات

أولاً، دعنا نحدد البيئة الضرورية:

Shell

# Install required packages for cloud integration

pip install "duckdb>=0.8.0" pyarrow pandas boto3 requests

الاعتماديات المفسرة:

duckdb>=0.8.0: محرك قاعدة البيانات الأساسي الذي يوفر وظائف SQL والمعالجة في الذاكرة
pyarrow: يتعامل بكفاءة مع عمليات ملفات Parquet مع دعم التخزين العمودي
pandas: يمكّن قدرات قوية في معالجة وتحليل البيانات
boto3: SDK AWS لـ Python، يوفر واجهات لخدمات AWS
requests: يدير الاتصالات HTTP للتفاعلات السحابية

تكوين الوصول الآمن إلى السحابة

Python

import duckdb

import os

​

# Initialize DuckDB with cloud support

conn = duckdb.connect(':memory:')

conn.execute("INSTALL httpfs;")

conn.execute("LOAD httpfs;")

​

# Secure AWS configuration

conn.execute("""

    SET s3_region='your-region';

    SET s3_access_key_id='your-access-key';

    SET s3_secret_access_key='your-secret-key';

""")

يقوم هذا الكود بالتهيئة بعدة أمور هامة:

إنشاء اتصال جديد بـ DuckDB في الذاكرة باستخدام :memory:
تثبيت وتحميل امتداد نظام الملفات HTTP (httpfs) الذي يمكّن من الوصول إلى تخزين السحابة
ضبط بيانات اعتماد AWS مع منطقتك ومفاتيح الوصول الخاصة بك
إعداد اتصال آمن بخدمات AWS

معالجة ملفات AWS S3 Parquet

لنفحص مثالاً شاملاً على معالجة ملفات Parquet بتقنية إخفاء البيانات الحساسة:

Python

import duckdb

import pandas as pd

​

# Create sample data to demonstrate parquet processing

sample_data = pd.DataFrame({

    'name': ['John Smith', 'Jane Doe', 'Bob Wilson', 'Alice Brown'],

    'email': ['[email protected]', '[email protected]', '[email protected]', '[email protected]'],

    'phone': ['123-456-7890', '234-567-8901', '345-678-9012', '456-789-0123'],

    'ssn': ['123-45-6789', '234-56-7890', '345-67-8901', '456-78-9012'],

    'address': ['123 Main St', '456 Oak Ave', '789 Pine Rd', '321 Elm Dr'],

    'salary': [75000, 85000, 65000, 95000]  # Non-sensitive data

})

إنشاء بيانات عينة يساعدنا في استعراض تقنيات إخفاء البيانات. نضمن وجود أنواع مختلفة من المعلومات الحساسة التي توجد عادة في مجموعات البيانات في العالم الحقيقي:

المعرّفات الشخصية (الاسم، الرقم الضريبي)
معلومات الاتصال (البريد الإلكتروني، الهاتف، العنوان)
البيانات المالية (الراتب)

الآن، دعونا نلقي نظرة على وظيفة المعالجة:

Python

def demonstrate_parquet_processing():

    # Create a DuckDB connection

    conn = duckdb.connect(':memory:')

    # Save sample data as parquet

    sample_data.to_parquet('sample_data.parquet')

    # Define sensitive columns to mask

    sensitive_cols = ['email', 'phone', 'ssn']

    # Process the parquet file with masking

    query = f"""

    CREATE TABLE masked_data AS

    SELECT 

        -- Mask name: keep first letter of first and last name

        regexp_replace(name, '([A-Z])[a-z]+ ([A-Z])[a-z]+', '\1*** \2***') as name,

        -- Mask email: hide everything before @

        regexp_replace(email, '([a-zA-Z0-9._%+-]+)(@.*)', '****\2') as email,

        -- Mask phone: show only last 4 digits

        regexp_replace(phone, '[0-9]{3}-[0-9]{3}-', '***-***-') as phone,

        -- Mask SSN: show only last 4 digits

        regexp_replace(ssn, '[0-9]{3}-[0-9]{2}-', '***-**-') as ssn,

        -- Mask address: show only street type

        regexp_replace(address, '[0-9]+ [A-Za-z]+ ', '*** ') as address,

        -- Keep non-sensitive data as is

        salary

    FROM read_parquet('sample_data.parquet');

    """

لنقسم هذه الوظيفة إلى مكوناتها:

نقوم بإنشاء اتصال جديد بـ DuckDB
تحويل إطار البيانات العيني إلى ملف Parquet
تحديد الأعمدة التي تحتوي على معلومات حساسة
قم بإنشاء استعلام SQL يطبق أنماط تشفير مختلفة:
- الأسماء: يحتفظ بالأحرف الأولى (مثل “جون سميث” → “ج*** س***”)
- البريد الإلكتروني: يخفي الجزء المحلي مع الاحتفاظ بالنطاق (مثل “” → “****@email.com”)
- أرقام الهواتف: يظهر فقط آخر أربعة أرقام
- أرقام الضمان الاجتماعي: يعرض فقط آخر أربعة أرقام
- العناوين: يحتفظ فقط بنوع الشارع
- الراتب: يبقى غير مشفر كبيانات غير حساسة

يجب أن يكون المخرج كما يلي:

Plain Text

Original Data:

=============

         name                   email           phone          ssn        address  salary

0  John Smith    [email protected]   123-456-7890  123-45-6789   123 Main St   75000

1   Jane Doe    [email protected]   234-567-8901  234-56-7890   456 Oak Ave   85000

2  Bob Wilson         [email protected]     345-678-9012  345-67-8901   789 Pine Rd   65000

3 Alice Brown      [email protected]     456-789-0123  456-78-9012   321 Elm Dr    95000

Masked Data:

===========

      name                email           phone          ssn     address  salary

0  J*** S***    ****@email.com     ***-***-7890  ***-**-6789   *** St   75000

1  J*** D***  ****@company.com     ***-***-8901  ***-**-7890   *** Ave   85000

2  B*** W***      ****@email.net   ***-***-9012  ***-**-8901   *** Rd   65000

3  A*** B***      ****@org.com     ***-***-0123  ***-**-9012   *** Dr    95000

الآن، دعنا نستكشف أنماط التشفير المختلفة مع الشروحات في تعليقات مقتطفات كود بايثون:

تباين تشفير البريد الإلكتروني

Python

# Show first letter only

"[email protected]" → "j***@email.com"

​

# Show domain only

"[email protected]" → "****@email.com"

​

# Show first and last letter

"[email protected]" → "j*********[email protected]"

تشفير رقم الهاتف

Python

# Last 4 digits only

"123-456-7890" → "***-***-7890"

​

# First 3 digits only

"123-456-7890" → "123-***-****"

​

# Middle digits only

"123-456-7890" → "***-456-****"

تشفير الاسم

Python

# Initials only

"John Smith" → "J.S."

​

# First letter of each word

"John Smith" → "J*** S***"

​

# Fixed length masking

"John Smith" → "XXXX XXXXX"

معالجة البيانات المنقسمة بكفاءة

عند التعامل مع مجموعات بيانات كبيرة، يصبح تقسيم البيانات أمرًا حيويًا. إليك كيفية التعامل مع البيانات المنقسمة بكفاءة:

Python

def process_partitioned_data(base_path, partition_column, sensitive_columns):

    """

    Process partitioned data efficiently

    Parameters:

    - base_path: Base path to partitioned data

    - partition_column: Column used for partitioning (e.g., 'date')

    - sensitive_columns: List of columns to mask

    """

    conn = duckdb.connect(':memory:')

    try:

        # 1. List all partitions

        query = f"""

        WITH partitions AS (

            SELECT DISTINCT {partition_column}

            FROM read_parquet('{base_path}/*/*.parquet')

        )

        SELECT * FROM partitions;

        """

توضح هذه الوظيفة عدة مفاهيم مهمة:

اكتشاف الأقسام الديناميكي
معالجة فعالة من حيث الذاكرة
معالجة الأخطاء مع التنظيف المناسب
توليد مخرجات بيانات مقنعة

عادةً ما يبدو هيكل القسم كما يلي:

هيكل القسم

Plain Text

sample_data/

├── date=2024-01-01/

│   └── data.parquet

├── date=2024-01-02/

│   └── data.parquet

└── date=2024-01-03/

    └── data.parquet

بيانات نموذجية

Plain Text

Original Data:

date        customer_id  email              phone           amount

2024-01-01  1           [email protected]    123-456-0001    500.00

2024-01-01  2           [email protected]    123-456-0002    750.25

...

Masked Data:

date        customer_id  email     phone        amount

2024-01-01  1           ****      ****         500.00

2024-01-01  2           ****      ****         750.25

فيما يلي بعض فوائد المعالجة المقسمة:

تقليل استهلاك الذاكرة
قدرة المعالجة المتوازية
تحسين الأداء
معالجة البيانات القابلة للتطوير

تقنيات تحسين الأداء

1. تكوين المعالجة المتوازية

Python

# Optimize for performance

conn.execute("""

    SET partial_streaming=true;

    SET threads=4;

    SET memory_limit='4GB';

""")

هذه الإعدادات:

تمكين البث الجزئي لتحسين إدارة الذاكرة
تعيين خيوط المعالجة المتوازية
تحديد حدود الذاكرة لمنع الفيضانات

2. معالجة الأخطاء القوية

Python

def robust_s3_read(s3_path, max_retries=3):

    """

    Implement reliable S3 data reading with retries.

    Parameters:

    - s3_path: Path to S3 data

    - max_retries: Maximum retry attempts

    """

    for attempt in range(max_retries):

        try:

            return conn.execute(f"SELECT * FROM read_parquet('{s3_path}')")

        except Exception as e:

            if attempt == max_retries - 1:

                raise

            time.sleep(2 ** attempt)  # Exponential backoff

توضح هذه الكتلة البرمجية كيفية تنفيذ إعادة المحاولة ورمي الاستثناءات عند الحاجة لاتخاذ تدابير استباقية.

3. تحسين التخزين

Python

# Efficient data storage with compression

conn.execute("""

    COPY (SELECT * FROM masked_data)

    TO 's3://output-bucket/masked_data.parquet'

    (FORMAT 'parquet', COMPRESSION 'ZSTD');

""")

توضح هذه الكتلة البرمجية تطبيق نوع ضغط التخزين لتحسين التخزين.

أفضل الممارسات والتوصيات

أفضل ممارسات الأمان

الأمان أمر حيوي عند التعامل مع البيانات، خاصة في بيئات السحابة. يساعد اتباع هذه الممارسات في حماية المعلومات الحساسة والحفاظ على الامتثال:

أدوار IAM. استخدم أدوار إدارة الهوية والوصول من AWS بدلاً من مفاتيح الوصول المباشرة عند الإمكان
تدوير المفاتيح. تنفيذ تدوير منتظم لمفاتيح الوصول
أقل امتيازات. منح الحد الأدنى من الأذونات اللازمة
مراقبة الوصول. مراجعة وتدقيق أنماط الوصول بانتظام

لماذا هذا مهم: يمكن أن تؤدي خروقات الأمان إلى تسرب البيانات، وانتهاكات الامتثال، والخسائر المالية. تحمي التدابير الأمنية المناسبة كل من منظمتك وبيانات مستخدميك.

تحسين الأداء

يضمن تحسين الأداء استخدام الموارد بكفاءة ومعالجة بيانات أسرع:

حجم الأقسام. اختيار أحجام أقسام مناسبة بناءً على حجم البيانات وأنماط المعالجة
المعالجة المتوازية. استخدام عدة خيوط لمعالجة أسرع
إدارة الذاكرة. مراقبة وتحسين استخدام الذاكرة
تحسين الاستعلامات. هيكلة الاستعلامات لتحقيق أقصى كفاءة

لماذا هذا مهم: الأداء الفعال يقلل من وقت المعالجة، ويوفر الموارد الحاسوبية، ويحسن موثوقية النظام بشكل عام.

معالجة الأخطاء

تضمن معالجة الأخطاء القوية معالجة بيانات موثوقة:

آليات إعادة المحاولة. تنفيذ التراجع الأسي للعمليات الفاشلة
تسجيل شامل. الحفاظ على سجلات مفصلة لأغراض تصحيح الأخطاء
مراقبة الحالة. تتبع تقدم المعالجة
حالات الحافة. التعامل مع سيناريوهات بيانات غير متوقعة

لماذا هو مهم: تضمن معالجة الأخطاء بشكل صحيح عدم فقدان البيانات، وتضمن اكتمال المعالجة، وتسهّل عملية استكشاف الأخطاء وإصلاحها.

الخاتمة

تقدم معالجة البيانات السحابية باستخدام DuckDB وAWS S3 مزيجًا قويًا من الأداء والأمان. دعني أعرف كيف تسير تنفيذك لـ DuckDB!معالجة الأخطاء

Source:
https://dzone.com/articles/processing-cloud-data-duckdb-aws