データプライバシーとセキュリティ：DuckDBを使用した機密データの取り扱いに関する開発者ガイド

SQL

データプライバシーとセキュリティのためのDuckDBの理解

データプライバシーとセキュリティは、世界中のすべての組織にとって重要な要素となっています。組織は、データの有用性を維持しながら、データセットから機密情報を特定、マスキング、または削除する必要があることがよくあります。この記事では、プロセス内分析データベースであるDuckDBを活用して、効率的な機密データの修復を行う方法を探ります。

なぜDuckDBなのか？（そしてなぜ気にする必要があるのか？）

DuckDBはSQLiteの分析に優れたいとこだと考えてください。それは、あなたのプロセス内で直接実行される埋め込みデータベースですが、特に分析ワークロードの処理のために設計されています。データ修復に最適な理由は何でしょうか？それは、複雑なデータベースサーバーを設定することなく、雷のような速さで大規模データセットを処理できることを想像してみてください。良さそうでしょう？

DuckDBが私たちのユースケースに特に素晴らしい理由は次のとおりです：

カラム指向ストレージのおかげで驚異的に速いです。
既存のPython環境ですぐに実行できます。
複数のファイル形式を何の問題もなく処理します。
クラウドストレージともうまく連携します（その詳細については後で説明します）。

このガイドでは、PythonとDuckDBを使用します。DuckDBは、ドキュメントに記載されているように、他の言語もサポートしています。

データプライバシーのためのDuckDBの始め方

前提条件

Python 3.9以上がインストールされていること
Pythonプロジェクトと仮想環境またはConda環境の設定に関する事前知識があること

次のコマンドを実行して、仮想環境内にDuckDBをインストールします：

Shell

pip install duckdb --upgrade

DuckDBをインストールしたので、DuckDB接続を作成しましょう：

Python

import duckdb

import pandas as pd

​

# Create a DuckDB connection - it's this simple!

conn = duckdb.connect(database=':memory:')

高度なPIIデータマスキング技術

堅牢なPII（個人を特定できる情報）マスキングを実装する方法は次のとおりです：

顧客情報が満載のデータセットがあり、それをクリーンアップする必要があるとしましょう。一般的なシナリオを処理する方法は次のとおりです。

サンプルデータを作成しましょう：

SQL

CREATE TABLE customer_data AS 

SELECT 

    'John Doe' as name,

    '123-45-6789' as ssn,

    '[email protected]' as email,

    '123-456-7890' as phone;

これにより、サンプルの機密データが1行入ったcustomer_dataというテーブルが作成されます。
データには名前、SSN、メールアドレス、電話番号が含まれています。

次の部分では、regexp_replaceを使用したマスキングパターンが含まれます：

SQL

-- Implement PII masking patterns

CREATE TABLE masked_data AS

SELECT 

    regexp_replace(name, '[a-zA-Z]', 'X') as masked_name,

    regexp_replace(ssn, '[0-9]', '*') as masked_ssn,

    regexp_replace(email, '(^[^@]+)(@.*$)', '****$2') as masked_email,

    regexp_replace(phone, '[0-9]', '#') as masked_phone

FROM customer_data;

上記のSQLコードが何をしているのか説明しましょう。

regexp_replace(name, '[a-zA-Z]', 'X')
- すべての文字（大文字と小文字の両方）を'X'で置き換えます
- 例："John Doe" は "XXXX XXX" になります
regexp_replace(ssn, '[0-9]', '*') as masked_ssn
- すべての数字を'*'で置き換えます
- 例："123-45-6789" は "--***" になります
regexp_replace(email, '(^[^@]+)(@.*$)', '****$2') as masked_email:
- (^[^@]+) は @ 記号の前のすべてをキャプチャします
- (@.*$) は @ 記号とそれ以降のすべてをキャプチャします
- 最初の部分を'****' で置き換え、ドメイン部分を保持します
- 例："" は "****@email.com" になります
regexp_replace(phone, '[0-9]', '#') as masked_phone:
- すべての数字を'#'に置き換えます
- 例："123-456-7890" が "###-###-####" になります

データは以下のように変換されます：

元のデータ：

name: John Doe
ssn: 123-45-6789
email: [email protected]
phone: 123-456-7890

マスクされたデータ：

masked_name: XXXX XXX
masked_ssn: ***-**-****
masked_email: ****@email.com
masked_phone: ###-###-####

Pythonの実装

Python

import duckdb

import pandas as pd

​

def mask_pii_data():

    # Create a DuckDB connection in memory

    conn = duckdb.connect(database=':memory:')

    try:

        # Create and populate sample data

        conn.execute("""

            CREATE TABLE customer_data AS 

            SELECT 

                'John Doe' as name,

                '123-45-6789' as ssn,

                '[email protected]' as email,

                '123-456-7890' as phone

        """)

        # Implement PII masking

        conn.execute("""

            CREATE TABLE masked_data AS

            SELECT 

                regexp_replace(name, '[a-zA-Z]', 'X') as masked_name,

                regexp_replace(ssn, '[0-9]', '*') as masked_ssn,

                regexp_replace(email, '(^[^@]+)(@.*$)', '****$2') as masked_email,

                regexp_replace(phone, '[0-9]', '#') as masked_phone

            FROM customer_data

        """)

        # Fetch and display original data

        print("Original Data:")

        original_data = conn.execute("SELECT * FROM customer_data").fetchdf()

        print(original_data)

        print("\n")

        # Fetch and display masked data

        print("Masked Data:")

        masked_data = conn.execute("SELECT * FROM masked_data").fetchdf()

        print(masked_data)

        return original_data, masked_data

    except Exception as e:

        print(f"An error occurred: {str(e)}")

        return None, None

    finally:

        # Close the connection

        conn.close()

ルールに基づいたデータの伏せ処理

技術的な側面に踏み込む前に、簡単な言葉でデータの伏せ処理について説明しましょう。

データの伏せ処理とは、機密情報を文書やデータベースから隠したり削除したりするプロセスであり、全体の構造や非機密コンテンツを保護しつつ行います。印刷された文書上の機密情報を隠すために黒いマーカーを使用するようなものですが、デジタル形式で行います。

DuckDBとPythonを使用したデータの伏せ処理を実装してみましょう。コメント付きのこのコードスニペットを追加したので、簡単に追えるようになっています。

Python

import duckdb

import pandas as pd

​

def demonstrate_data_redaction():

    # Create a connection

    conn = duckdb.connect(':memory:')

    # Create sample data with various sensitive information

    conn.execute("""

        CREATE TABLE sensitive_info AS SELECT * FROM (

            VALUES

                ('John Doe', '[email protected]', 'CC: 4532-1234-5678-9012', 'Normal text'),

                ('Jane Smith', '[email protected]', 'SSN: 123-45-6789', 'Some notes'),

                ('Bob Wilson', '[email protected]', 'Password: SecretPass123!', 'Regular info'),

                ('Alice Brown', '[email protected]', 'API_KEY=abc123xyz', 'Basic text')

            ) AS t(name, email, sensitive_field, normal_text);

    """)

    # Define redaction rules

    redaction_rules = {

        'email': r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}',  # Email pattern

        'sensitive_field': r'(CC:\s*\d{4}[-\s]?\d{4}[-\s]?\d{4}[-\s]?\d{4}|SSN:\s*\d{3}-\d{2}-\d{4}|Password:\s*\S+|API_KEY=\S+)',  # Various sensitive patterns

        'name': r'[A-Z][a-z]+ [A-Z][a-z]+'  # Full name pattern

    }

    # Show original data

    print("Original Data:")

    print(conn.execute("SELECT * FROM sensitive_info").fetchdf())

    # Apply redaction

    redact_sensitive_data(conn, 'sensitive_info', redaction_rules)

    # Show redacted data

    print("\nRedacted Data:")

    print(conn.execute("SELECT * FROM redacted_data").fetchdf())

    return conn

​

def redact_sensitive_data(conn, table_name, rules):

    """

    Redact sensitive data based on specified patterns.

    Parameters:

    - conn: DuckDB connection

    - table_name: Name of the table containing sensitive data

    - rules: Dictionary of column names and their corresponding regex patterns to match sensitive data

    """

    redaction_cases = []

    # This creates a CASE statement for each column

    # If the pattern matches, the value is redacted

    # If not, the original value is kept

    for column, pattern in rules.items():

        redaction_cases.append(f"""

            CASE 

                WHEN regexp_matches({column}, '{pattern}') 

                THEN '(REDACTED)' 

                ELSE {column} 

            END as {column}

        """)

    query = f"""

    CREATE TABLE redacted_data AS

    SELECT 

        {', '.join(redaction_cases)}

    FROM {table_name};

    """

    conn.execute(query)

​

# Example with custom redaction patterns

def demonstrate_custom_redaction():

    conn = duckdb.connect(':memory:')

    # Create sample data

    conn.execute("""

        CREATE TABLE customer_data AS SELECT * FROM (

            VALUES

                ('John Doe', '123-45-6789', 'ACC#12345', '$5000'),

                ('Jane Smith', '987-65-4321', 'ACC#67890', '$3000'),

                ('Bob Wilson', '456-78-9012', 'ACC#11111', '$7500')

            ) AS t(name, ssn, account, balance);

    """)

    # Define custom redaction rules with different patterns

    custom_rules = {

        'name': {

            'pattern': r'[A-Z][a-z]+ [A-Z][a-z]+',

            'replacement': lambda match: f"{match[0][0]}*** {match[0].split()[1][0]}***"

        },

        'ssn': {

            'pattern': r'\d{3}-\d{2}-\d{4}',

            'replacement': 'XXX-XX-XXXX'

        },

        'account': {

            'pattern': r'ACC#\d{5}',

            'replacement': 'ACC#*****'

        }

    }

    def apply_custom_redaction(conn, table_name, rules):

        redaction_cases = []

        for column, rule in rules.items():

            redaction_cases.append(f"""

                CASE 

                    WHEN regexp_matches({column}, '{rule['pattern']}') 

                    THEN '{rule['replacement']}'

                    ELSE {column} 

                END as {column}

            """)

        query = f"""

        CREATE TABLE custom_redacted AS

        SELECT 

            {', '.join(redaction_cases)},

            balance  -- Keep this column unchanged

        FROM {table_name};

        """

        conn.execute(query)

    # Show original data

    print("\nOriginal Customer Data:")

    print(conn.execute("SELECT * FROM customer_data").fetchdf())

    # Apply custom redaction

    apply_custom_redaction(conn, 'customer_data', custom_rules)

    # Show results

    print("\nCustom Redacted Data:")

    print(conn.execute("SELECT * FROM custom_redacted").fetchdf())

​

# Run demonstrations

print("=== Basic Redaction Demo ===")

demonstrate_data_redaction()

print("\n=== Custom Redaction Demo ===")

demonstrate_custom_redaction()

サンプル結果

伏せ処理前：

name       email              sensitive_field
John Doe   [email protected] CC: 4532-1234-5678-9012

伏せ処理後：

name       email      sensitive_field
(REDACTED) (REDACTED) (REDACTEd)

結論

DuckDBはシンプルでありながら強力なインメモリデータベースであり、機密データの是正に役立ちます。

常に以下を実施してください：

マスクされたデータを検証します。
大規模なデータセットに対して並列処理を使用します。
DuckDBのS3統合をクラウドデータに活用します。
大きなファイルの処理時にメモリ使用量に注意してください。

Source:
https://dzone.com/articles/developers-guide-handling-sensitive-data-with-duckdb