數據隱私與安全：開發者處理敏感數據的 DuckDB 指南

教學

SQL

理解DuckDB在數據隱私和安全中的應用

數據隱私和安全已成為全球所有組織的關鍵問題。組織通常需要識別、屏蔽或刪除數據集中敏感信息，同時保持數據的實用性。本文探討如何利用DuckDB這個內部分析數據庫，來有效地進行敏感數據修復。

為什麼選擇DuckDB？（以及你應該關心的原因）

把DuckDB想像成 SQLite 的分析天才表親。它是一個嵌入式數據庫，直接在你的進程中運行，但專門設計用於處理分析工作負載。它為什麼適合數據修復？想像一下，你可以以閃電般的速度處理大型數據集，而無需設置複雜的數據庫伺服器。聽起來不錯，對吧？

以下是DuckDB對於我們的使用案例特別出色的幾個原因:

它由於列導向存儲而速度驚人。
你可以直接在現有的 Python 環境中運行它。
它能夠輕鬆處理多種文件格式。
它與雲存儲的兼容性很好（稍後會詳細說明）。

在這本指南中，我將使用 Python 和 DuckDB。DuckDB 也支持其他語言，如其文檔中提到的。

開始使用 DuckDB 以進行數據隱私

先決條件

安裝 Python 3.9 或更高版本
對於設置 Python 項目和虛擬環境或 Conda 環境的先前知識

通過運行以下命令在虛擬環境中安裝 DuckDB：

Shell

pip install duckdb --upgrade

現在您已經安裝了 DuckDB，讓我們創建一個 DuckDB 連接：

Python

import duckdb

import pandas as pd

​

# Create a DuckDB connection - it's this simple!

conn = duckdb.connect(database=':memory:')

進階 PII 數據遮罩技術

以下是如何實現穩健的 PII（個人可識別信息）遮罩：

假設您有一個包含客戶信息的數據集需要清理。以下是處理常見場景的方法。

讓我們創建示例數據：

SQL

CREATE TABLE customer_data AS 

SELECT 

    'John Doe' as name,

    '123-45-6789' as ssn,

    '[email protected]' as email,

    '123-456-7890' as phone;

這將創建一個名為 customer_data 的表，包含一行示例敏感數據。
數據包括姓名、社會安全號碼、電子郵件和電話號碼。

第二部分涉及使用 regexp_replace 進行遮罩模式：

SQL

-- Implement PII masking patterns

CREATE TABLE masked_data AS

SELECT 

    regexp_replace(name, '[a-zA-Z]', 'X') as masked_name,

    regexp_replace(ssn, '[0-9]', '*') as masked_ssn,

    regexp_replace(email, '(^[^@]+)(@.*$)', '****$2') as masked_email,

    regexp_replace(phone, '[0-9]', '#') as masked_phone

FROM customer_data;

讓我來帶您了解上述 SQL 代碼的功能。

regexp_replace(name, '[a-zA-Z]', 'X')
- 將所有字母（包括大寫和小寫）替換為'X'
- 示例："John Doe" 變為 "XXXX XXX"
regexp_replace(ssn, '[0-9]', '*') as masked_ssn
- 將所有數字替換為'*'
- 示例："123-45-6789" 變為 "--***"
regexp_replace(email, '(^[^@]+)(@.*$)', '****$2') as masked_email:
- (^[^@]+) 捕獲@符號之前的所有內容
- (@.*$) 捕獲@符號及其後的所有內容
- 將第一部分替換為'****' 並保留域部分
- 示例："" 變為 "****@email.com"
regexp_replace(phone, '[0-9]', '#') as masked_phone:
- 將所有數字替換為'#'
- 範例："123-456-7890" 變為 "###-###-####"

因此您的數據轉換如下：

原始數據：

name: John Doe
ssn: 123-45-6789
email: [email protected]
phone: 123-456-7890

屏蔽後的數據：

masked_name: XXXX XXX
masked_ssn: ***-**-****
masked_email: ****@email.com
masked_phone: ###-###-####

Python 實現

Python

import duckdb

import pandas as pd

​

def mask_pii_data():

    # Create a DuckDB connection in memory

    conn = duckdb.connect(database=':memory:')

    try:

        # Create and populate sample data

        conn.execute("""

            CREATE TABLE customer_data AS 

            SELECT 

                'John Doe' as name,

                '123-45-6789' as ssn,

                '[email protected]' as email,

                '123-456-7890' as phone

        """)

        # Implement PII masking

        conn.execute("""

            CREATE TABLE masked_data AS

            SELECT 

                regexp_replace(name, '[a-zA-Z]', 'X') as masked_name,

                regexp_replace(ssn, '[0-9]', '*') as masked_ssn,

                regexp_replace(email, '(^[^@]+)(@.*$)', '****$2') as masked_email,

                regexp_replace(phone, '[0-9]', '#') as masked_phone

            FROM customer_data

        """)

        # Fetch and display original data

        print("Original Data:")

        original_data = conn.execute("SELECT * FROM customer_data").fetchdf()

        print(original_data)

        print("\n")

        # Fetch and display masked data

        print("Masked Data:")

        masked_data = conn.execute("SELECT * FROM masked_data").fetchdf()

        print(masked_data)

        return original_data, masked_data

    except Exception as e:

        print(f"An error occurred: {str(e)}")

        return None, None

    finally:

        # Close the connection

        conn.close()

根據規則進行數據屏蔽

在深入技術細節之前，讓我用簡單的術語解釋一下數據屏蔽。

數據屏蔽是從文檔或數據庫中隱藏或移除敏感信息的過程，同時保留整體結構和非敏感內容。想像一下，就像用黑色標記筆在打印文檔上隱藏機密信息，但以數字形式存在。

現在讓我們用 DuckDB 和 Python 實現數據屏蔽。我添加了這段帶註解的代碼片段，以便您可以輕鬆跟隨。

Python

import duckdb

import pandas as pd

​

def demonstrate_data_redaction():

    # Create a connection

    conn = duckdb.connect(':memory:')

    # Create sample data with various sensitive information

    conn.execute("""

        CREATE TABLE sensitive_info AS SELECT * FROM (

            VALUES

                ('John Doe', '[email protected]', 'CC: 4532-1234-5678-9012', 'Normal text'),

                ('Jane Smith', '[email protected]', 'SSN: 123-45-6789', 'Some notes'),

                ('Bob Wilson', '[email protected]', 'Password: SecretPass123!', 'Regular info'),

                ('Alice Brown', '[email protected]', 'API_KEY=abc123xyz', 'Basic text')

            ) AS t(name, email, sensitive_field, normal_text);

    """)

    # Define redaction rules

    redaction_rules = {

        'email': r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}',  # Email pattern

        'sensitive_field': r'(CC:\s*\d{4}[-\s]?\d{4}[-\s]?\d{4}[-\s]?\d{4}|SSN:\s*\d{3}-\d{2}-\d{4}|Password:\s*\S+|API_KEY=\S+)',  # Various sensitive patterns

        'name': r'[A-Z][a-z]+ [A-Z][a-z]+'  # Full name pattern

    }

    # Show original data

    print("Original Data:")

    print(conn.execute("SELECT * FROM sensitive_info").fetchdf())

    # Apply redaction

    redact_sensitive_data(conn, 'sensitive_info', redaction_rules)

    # Show redacted data

    print("\nRedacted Data:")

    print(conn.execute("SELECT * FROM redacted_data").fetchdf())

    return conn

​

def redact_sensitive_data(conn, table_name, rules):

    """

    Redact sensitive data based on specified patterns.

    Parameters:

    - conn: DuckDB connection

    - table_name: Name of the table containing sensitive data

    - rules: Dictionary of column names and their corresponding regex patterns to match sensitive data

    """

    redaction_cases = []

    # This creates a CASE statement for each column

    # If the pattern matches, the value is redacted

    # If not, the original value is kept

    for column, pattern in rules.items():

        redaction_cases.append(f"""

            CASE 

                WHEN regexp_matches({column}, '{pattern}') 

                THEN '(REDACTED)' 

                ELSE {column} 

            END as {column}

        """)

    query = f"""

    CREATE TABLE redacted_data AS

    SELECT 

        {', '.join(redaction_cases)}

    FROM {table_name};

    """

    conn.execute(query)

​

# Example with custom redaction patterns

def demonstrate_custom_redaction():

    conn = duckdb.connect(':memory:')

    # Create sample data

    conn.execute("""

        CREATE TABLE customer_data AS SELECT * FROM (

            VALUES

                ('John Doe', '123-45-6789', 'ACC#12345', '$5000'),

                ('Jane Smith', '987-65-4321', 'ACC#67890', '$3000'),

                ('Bob Wilson', '456-78-9012', 'ACC#11111', '$7500')

            ) AS t(name, ssn, account, balance);

    """)

    # Define custom redaction rules with different patterns

    custom_rules = {

        'name': {

            'pattern': r'[A-Z][a-z]+ [A-Z][a-z]+',

            'replacement': lambda match: f"{match[0][0]}*** {match[0].split()[1][0]}***"

        },

        'ssn': {

            'pattern': r'\d{3}-\d{2}-\d{4}',

            'replacement': 'XXX-XX-XXXX'

        },

        'account': {

            'pattern': r'ACC#\d{5}',

            'replacement': 'ACC#*****'

        }

    }

    def apply_custom_redaction(conn, table_name, rules):

        redaction_cases = []

        for column, rule in rules.items():

            redaction_cases.append(f"""

                CASE 

                    WHEN regexp_matches({column}, '{rule['pattern']}') 

                    THEN '{rule['replacement']}'

                    ELSE {column} 

                END as {column}

            """)

        query = f"""

        CREATE TABLE custom_redacted AS

        SELECT 

            {', '.join(redaction_cases)},

            balance  -- Keep this column unchanged

        FROM {table_name};

        """

        conn.execute(query)

    # Show original data

    print("\nOriginal Customer Data:")

    print(conn.execute("SELECT * FROM customer_data").fetchdf())

    # Apply custom redaction

    apply_custom_redaction(conn, 'customer_data', custom_rules)

    # Show results

    print("\nCustom Redacted Data:")

    print(conn.execute("SELECT * FROM custom_redacted").fetchdf())

​

# Run demonstrations

print("=== Basic Redaction Demo ===")

demonstrate_data_redaction()

print("\n=== Custom Redaction Demo ===")

demonstrate_custom_redaction()

樣本結果

屏蔽前：

name       email              sensitive_field
John Doe   [email protected] CC: 4532-1234-5678-9012

屏蔽後：

name       email      sensitive_field
(REDACTED) (REDACTED) (REDACTEd)

結論

DuckDB 是一個簡單且強大的內存數據庫，可以幫助處理敏感數據。

請記住總是：

驗證您的屏蔽數據。
對於大型數據集使用並行處理。
利用 DuckDB 的 S3 整合來處理雲數據。
在處理大型文件時，注意您的內存使用情況。

Source:
https://dzone.com/articles/developers-guide-handling-sensitive-data-with-duckdb