Конфиденциальность и безопасность данных: Руководство для разработчиков по обработке конфиденциальных данных с DuckDB

SQL

Понимание DuckDB для конфиденциальности данных и безопасности

Конфиденциальность данных и безопасность стали критически важными для всех организаций по всему миру. Организациям часто необходимо выявлять, маскировать или удалять чувствительную информацию из своих наборов данных, при этом сохраняя полезность данных. Эта статья исследует, как использовать DuckDB, аналитическую базу данных в процессе, для эффективного устранения чувствительных данных.

Почему DuckDB? (И почему это важно для вас?)

Думайте о DuckDB как о SQLite, но с аналитическими способностями. Это встроенная база данных, которая работает прямо в вашем процессе, но она специально разработана для обработки аналитических нагрузок. Что делает ее идеальной для устранения данных? Представьте себе возможность обрабатывать большие наборы данных с молниеносной скоростью, не настраивая сложный сервер базы данных. Звучит здорово, правда?

Вот что делает DuckDB особенно крутым для нашего случая:

Она невероятно быстрая благодаря своему столбцовому хранению.
Вы можете запускать ее прямо в вашей существующей Python среде.
Она обрабатывает несколько форматов файлов, как будто это не проблема.
Она хорошо работает с облачными хранилищами (об этом позже).

В этом руководстве я буду использовать Python вместе с DuckDB. DuckDB также поддерживает другие языки, как упомянуто в их документации.

Начало работы с DuckDB для защиты данных

Предварительные требования

Установленный Python 3.9 или выше
Предварительные знания по настройке проектов Python и виртуальных окружений или окружений Conda

Установите DuckDB внутри виртуального окружения, выполнив следующую команду:

Shell

pip install duckdb --upgrade

Теперь, когда вы установили DuckDB, давайте создадим подключение к DuckDB:

Python

import duckdb

import pandas as pd

​

# Create a DuckDB connection - it's this simple!

conn = duckdb.connect(database=':memory:')

Расширенные техники маскировки PII данных

Вот как реализовать надежную маскировку PII (личной идентифицируемой информации):

Предположим, у вас есть набор данных с информацией о клиентах, который необходимо очистить. Вот как вы можете справиться с распространенными сценариями.

Давайте создадим пример данных:

SQL

CREATE TABLE customer_data AS 

SELECT 

    'John Doe' as name,

    '123-45-6789' as ssn,

    '[email protected]' as email,

    '123-456-7890' as phone;

Это создает таблицу с именем customer_data с одной строкой образцов конфиденциальных данных.
Данные включают имя, номер социального страхования, электронную почту и номер телефона.

Вторая часть включает маскировку шаблонов с использованием regexp_replace:

SQL

-- Implement PII masking patterns

CREATE TABLE masked_data AS

SELECT 

    regexp_replace(name, '[a-zA-Z]', 'X') as masked_name,

    regexp_replace(ssn, '[0-9]', '*') as masked_ssn,

    regexp_replace(email, '(^[^@]+)(@.*$)', '****$2') as masked_email,

    regexp_replace(phone, '[0-9]', '#') as masked_phone

FROM customer_data;

Позвольте мне объяснить, что делает приведенный выше SQL код.

regexp_replace(name, '[a-zA-Z]', 'X')
- Заменяет все буквы (как верхнего, так и нижнего регистра) на 'X'
- Пример: "John Doe" становится "XXXX XXX"
regexp_replace(ssn, '[0-9]', '*') as masked_ssn
- Заменяет все цифры на '*'
- Пример: "123-45-6789" становится "--***"
regexp_replace(email, '(^[^@]+)(@.*$)', '****$2') as masked_email:
- (^[^@]+) захватывает все до символа @
- (@.*$) захватывает @ и все после него
- Заменяет первую часть на '****' и сохраняет доменную часть
- Пример: "" становится "****@email.com"
regexp_replace(phone, '[0-9]', '#') as masked_phone:
- Заменяет все цифры на '#'
- Пример: "123-456-7890" становится "###-###-####"

Таким образом, ваши данные преобразованы следующим образом:

Исходные данные:

name: John Doe
ssn: 123-45-6789
email: [email protected]
phone: 123-456-7890

Замаскированные данные:

masked_name: XXXX XXX
masked_ssn: ***-**-****
masked_email: ****@email.com
masked_phone: ###-###-####

Реализация на Python

Python

import duckdb

import pandas as pd

​

def mask_pii_data():

    # Create a DuckDB connection in memory

    conn = duckdb.connect(database=':memory:')

    try:

        # Create and populate sample data

        conn.execute("""

            CREATE TABLE customer_data AS 

            SELECT 

                'John Doe' as name,

                '123-45-6789' as ssn,

                '[email protected]' as email,

                '123-456-7890' as phone

        """)

        # Implement PII masking

        conn.execute("""

            CREATE TABLE masked_data AS

            SELECT 

                regexp_replace(name, '[a-zA-Z]', 'X') as masked_name,

                regexp_replace(ssn, '[0-9]', '*') as masked_ssn,

                regexp_replace(email, '(^[^@]+)(@.*$)', '****$2') as masked_email,

                regexp_replace(phone, '[0-9]', '#') as masked_phone

            FROM customer_data

        """)

        # Fetch and display original data

        print("Original Data:")

        original_data = conn.execute("SELECT * FROM customer_data").fetchdf()

        print(original_data)

        print("\n")

        # Fetch and display masked data

        print("Masked Data:")

        masked_data = conn.execute("SELECT * FROM masked_data").fetchdf()

        print(masked_data)

        return original_data, masked_data

    except Exception as e:

        print(f"An error occurred: {str(e)}")

        return None, None

    finally:

        # Close the connection

        conn.close()

Удаление данных на основе правил

Позвольте мне объяснить удаление данных простыми словами, прежде чем углубиться в его технические аспекты.

Удаление данных — это процесс скрытия или удаления конфиденциальной информации из документов или баз данных при сохранении общей структуры и неконфиденциального содержимого. Подумайте об этом как о том, как использовать черный маркер, чтобы скрыть конфиденциальную информацию на напечатанном документе, но в цифровом формате.

Теперь давайте реализуем удаление данных с помощью DuckDB и Python. Я добавил этот фрагмент кода с комментариями, чтобы вам было легко следовать.

Python

import duckdb

import pandas as pd

​

def demonstrate_data_redaction():

    # Create a connection

    conn = duckdb.connect(':memory:')

    # Create sample data with various sensitive information

    conn.execute("""

        CREATE TABLE sensitive_info AS SELECT * FROM (

            VALUES

                ('John Doe', '[email protected]', 'CC: 4532-1234-5678-9012', 'Normal text'),

                ('Jane Smith', '[email protected]', 'SSN: 123-45-6789', 'Some notes'),

                ('Bob Wilson', '[email protected]', 'Password: SecretPass123!', 'Regular info'),

                ('Alice Brown', '[email protected]', 'API_KEY=abc123xyz', 'Basic text')

            ) AS t(name, email, sensitive_field, normal_text);

    """)

    # Define redaction rules

    redaction_rules = {

        'email': r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}',  # Email pattern

        'sensitive_field': r'(CC:\s*\d{4}[-\s]?\d{4}[-\s]?\d{4}[-\s]?\d{4}|SSN:\s*\d{3}-\d{2}-\d{4}|Password:\s*\S+|API_KEY=\S+)',  # Various sensitive patterns

        'name': r'[A-Z][a-z]+ [A-Z][a-z]+'  # Full name pattern

    }

    # Show original data

    print("Original Data:")

    print(conn.execute("SELECT * FROM sensitive_info").fetchdf())

    # Apply redaction

    redact_sensitive_data(conn, 'sensitive_info', redaction_rules)

    # Show redacted data

    print("\nRedacted Data:")

    print(conn.execute("SELECT * FROM redacted_data").fetchdf())

    return conn

​

def redact_sensitive_data(conn, table_name, rules):

    """

    Redact sensitive data based on specified patterns.

    Parameters:

    - conn: DuckDB connection

    - table_name: Name of the table containing sensitive data

    - rules: Dictionary of column names and their corresponding regex patterns to match sensitive data

    """

    redaction_cases = []

    # This creates a CASE statement for each column

    # If the pattern matches, the value is redacted

    # If not, the original value is kept

    for column, pattern in rules.items():

        redaction_cases.append(f"""

            CASE 

                WHEN regexp_matches({column}, '{pattern}') 

                THEN '(REDACTED)' 

                ELSE {column} 

            END as {column}

        """)

    query = f"""

    CREATE TABLE redacted_data AS

    SELECT 

        {', '.join(redaction_cases)}

    FROM {table_name};

    """

    conn.execute(query)

​

# Example with custom redaction patterns

def demonstrate_custom_redaction():

    conn = duckdb.connect(':memory:')

    # Create sample data

    conn.execute("""

        CREATE TABLE customer_data AS SELECT * FROM (

            VALUES

                ('John Doe', '123-45-6789', 'ACC#12345', '$5000'),

                ('Jane Smith', '987-65-4321', 'ACC#67890', '$3000'),

                ('Bob Wilson', '456-78-9012', 'ACC#11111', '$7500')

            ) AS t(name, ssn, account, balance);

    """)

    # Define custom redaction rules with different patterns

    custom_rules = {

        'name': {

            'pattern': r'[A-Z][a-z]+ [A-Z][a-z]+',

            'replacement': lambda match: f"{match[0][0]}*** {match[0].split()[1][0]}***"

        },

        'ssn': {

            'pattern': r'\d{3}-\d{2}-\d{4}',

            'replacement': 'XXX-XX-XXXX'

        },

        'account': {

            'pattern': r'ACC#\d{5}',

            'replacement': 'ACC#*****'

        }

    }

    def apply_custom_redaction(conn, table_name, rules):

        redaction_cases = []

        for column, rule in rules.items():

            redaction_cases.append(f"""

                CASE 

                    WHEN regexp_matches({column}, '{rule['pattern']}') 

                    THEN '{rule['replacement']}'

                    ELSE {column} 

                END as {column}

            """)

        query = f"""

        CREATE TABLE custom_redacted AS

        SELECT 

            {', '.join(redaction_cases)},

            balance  -- Keep this column unchanged

        FROM {table_name};

        """

        conn.execute(query)

    # Show original data

    print("\nOriginal Customer Data:")

    print(conn.execute("SELECT * FROM customer_data").fetchdf())

    # Apply custom redaction

    apply_custom_redaction(conn, 'customer_data', custom_rules)

    # Show results

    print("\nCustom Redacted Data:")

    print(conn.execute("SELECT * FROM custom_redacted").fetchdf())

​

# Run demonstrations

print("=== Basic Redaction Demo ===")

demonstrate_data_redaction()

print("\n=== Custom Redaction Demo ===")

demonstrate_custom_redaction()

Пример результатов

Перед удалением:

name       email              sensitive_field
John Doe   [email protected] CC: 4532-1234-5678-9012

После удаления:

name       email      sensitive_field
(REDACTED) (REDACTED) (REDACTEd)

Заключение

DuckDB — это простая, но мощная база данных в оперативной памяти, которая может помочь с исправлением конфиденциальных данных.

Не забывайте всегда:

Проверять ваши замаскированные данные.
Использовать параллельную обработку для больших наборов данных.
Воспользоваться интеграцией DuckDB с S3 для облачных данных.
Следить за использованием памяти при обработке больших файлов.

Source:
https://dzone.com/articles/developers-guide-handling-sensitive-data-with-duckdb