Ripristino a un punto nel tempo (PITR) in PostgreSQL

Tutorial

PostgreSQL

Il ripristino a un determinato momento (PITR) è una funzionalità robusta in PostgreSQL che è diventata ancora più efficiente e user-friendly con l’avvento di PostgreSQL. Consente agli amministratori di ripristinare un database PostgreSQL a un momento specifico nel passato. Questo è particolarmente utile se gestisci il recupero da disastri per un sistema su larga scala con un carico di transazioni elevato.

Questo blog esplorerà il PITR e ti fornirà conoscenze sui potenziali problemi e le loro soluzioni, garantendo un’implementazione fluida e di successo. Condivideremo anche i suoi principali vantaggi e dettaglieremo un’implementazione passo-passo di PostgreSQL.

Componenti Chiave

Implementare il PITR comporta due componenti chiave:

1. Backup di Base

Un backup di base è uno snapshot del database in un momento specifico. Include tutti i file di dati, i file di configurazione e i metadati necessari per ripristinare il database al suo stato originale. Il backup di base funge da punto di partenza per il PITR.

2. Write-Ahead Logs (WAL)

I file WAL registrano ogni modifica apportata al database. Questi log memorizzano le modifiche necessarie per recuperare il database al suo stato in un momento specifico. Quando esegui un PITR, riproduci i file WAL in sequenza per ricreare lo stato desiderato del database.

Perché Usare il PITR?

Il PITR è vantaggioso in diversi scenari:

Annullare Modifiche Accidentali

Operazioni accidentali, come un’istruzione DELETE o DROP senza una clausola WHERE, possono comportare una significativa perdita di dati. Con PITR, puoi ripristinare il database a uno stato subito prima dell’errore, preservando dati critici.

Recupero da Corruzione dei Dati

Bug nell’applicazione, guasti hardware o corruzione dei dischi possono causare incoerenze nei dati. PITR ti consente di ripristinare uno snapshot pulito del database e riprodurre solo le modifiche valide, minimizzando i tempi di inattività e la perdita di dati.

Ripristino per Test o Debugging

Gli sviluppatori spesso hanno bisogno di replicare un database di produzione per scopi di debugging o testing. PITR consente la creazione di uno snapshot del database in un momento specifico, facilitando esperimenti controllati senza influenzare i dati in tempo reale.

Ripristino in Caso di Disastro

PITR è essenziale per le strategie di recupero in caso di disastro. In caso di guasti catastrofici, come disastri naturali o attacchi informatici, puoi ripristinare rapidamente il database al suo ultimo stato coerente, garantendo la continuità aziendale.

Uso Efficiente delle Risorse

Combinando backup di base periodici con file WAL, il PITR riduce al minimo la necessità di backup completi frequenti, risparmiando spazio di archiviazione e riducendo i tempi di backup. Il PITR è anche un metodo di recupero preciso, che consente di ripristinare a un secondo specifico e riduce al minimo il rischio di perdita di dati durante un incidente. È abbastanza flessibile da gestire scenari di recupero diversi, da un rollback di singole transazioni a un ripristino completo del database in modo efficiente.

Cosa c’è di nuovo in PostgreSQL 17 per il PITR?

PostgreSQL 17 introduce diversi miglioramenti per il PITR, concentrandosi su prestazioni, usabilità e compatibilità:

Sincronizzazione dello Slot di Failover

Gli slot di replicazione logica ora sostengono la sincronizzazione durante i failover. Questo assicura che i WAL necessari per il PITR vengano mantenuti anche dopo un failover, riducendo l’intervento manuale.

Compressione WAL Migliorata

L’algoritmo di compressione WAL è stato aggiornato per migliorare l’efficienza di archiviazione, riducendo lo spazio richiesto per l’archiviazione dei WAL. Questo è particolarmente vantaggioso per sistemi su larga scala con elevate percentuali di transazione.

Velocità di Recupero Più Elevate

Le ottimizzazioni nel processo di replay WAL portano a tempi di recupero più rapidi, in particolare per set di dati di grandi dimensioni.

Compatibilità migliorata con la replica logica

PITR ora si integra meglio con le configurazioni di replica logica, rendendo più facile recuperare cluster che sfruttano la replica fisica e logica.

Controllo granulare dell’archiviazione WAL

PostgreSQL 17 offre più controllo sull’archiviazione WAL, consentendo di affinare le politiche di retention per soddisfare i requisiti di recupero.

Passaggi dettagliati per eseguire PITR in PostgreSQL

Segui questi passaggi per impostare ed eseguire PITR. Prima di utilizzare PITR, avrai bisogno di:

Archiviazione WAL: Abilita e configura l’archiviazione WAL.
Backup di base: Esegui un backup di base completo utilizzando pg_basebackup o pgBackRest.
Archiviazione sicura: Assicurati che i backup e i file WAL siano archiviati in modo sicuro, preferibilmente off-site.

1. Configura l’archiviazione WAL

L’archiviazione WAL è fondamentale per PITR in quanto memorizza le modifiche incrementali tra i backup. Per configurare l’archiviazione WAL, aggiorna il file postgresql.conf, impostando:

Shell

wal_level = replica          # Ensures sufficient logging for recovery

​

archive_mode = on            # Enables WAL archiving

​

archive_command = 'cp %p /path/to/wal_archive/%f'  # Command to archive WALs

​

max_wal_senders = 3          # Allows replication and archiving

Quindi, dopo aver impostato i parametri di configurazione, riavvia il server PostgreSQL:

Shell

sudo systemctl restart postgresql

Controlla lo stato dell’archiviazione WAL con il seguente comando:

SQL

SELECT * FROM pg_stat_archiver;

Cerca eventuali errori nella vista pg_stat_archiver o nei log di PostgreSQL.

2. Esegui un Backup di Base

Effettua un backup di base da utilizzare come punto di partenza per il PITR; utilizzando pg_basebackup, il comando assume la forma:

Shell

pg_basebackup -D /path/to/backup_directory -Fp -Xs -P

Questo crea uno snapshot coerente del database e garantisce che i file WAL siano archiviati per il recupero.

3. Valida l’Integrità del Backup

Usa pg_verifybackup per convalidare l’integrità del tuo backup:

Shell

pg_verifybackup /path/to/backup_directory

4. Simula un Guasto

Per scopi dimostrativi, puoi simulare un guasto. Ad esempio, cancella accidentalmente dei dati:

Shell

DELETE FROM critical_table WHERE id = 123;

5. Ripristina il Backup di Base

Prima di ripristinare il backup di base, arresta il server PostgreSQL:

Shell

sudo systemctl stop postgresql

Quindi, usa il seguente comando per cambiare il nome della directory dei dati esistente:

Shell

mv /var/lib/pgsql/17/data /var/lib/pgsql/17/data_old

Poi, sostituisci la directory dei dati con il backup di base:

Shell

cp -r /path/to/backup_directory /var/lib/pgsql/17/data

Aggiorna i permessi sulla directory dei dati:

Shell

chown -R postgres:postgres /var/lib/pgsql/17/data

6. Configura il Recupero

Per abilitare la modalità di recupero, devi prima creare un file recovery.signal nella directory dei dati di PostgreSQL:

Shell

touch /var/lib/pgsql/17/data/recovery.signal

Quindi, aggiorna postgresql.conf, aggiungendo i seguenti parametri:

Shell

restore_command = 'cp /path/to/wal_archive/%f "%p"'  # Restore archived WALs

​

recovery_target_time = '2024-11-19 12:00:00'    # Specify target time

​

Alternatively, use recovery_target_lsn or recovery_target_name for more advanced scenarios.

7. Avvia PostgreSQL in Modalità di Recupero

Riavvia il server PostgreSQL con il comando:

Shell

sudo systemctl start postgresql

Monitora i log per il progresso del recupero:

Shell

tail -f /var/lib/pgsql/17/pg_log/postgresql.log

PostgreSQL uscirà automaticamente dalla modalità di recupero e diventerà operativo quando il recupero sarà completato.

8. Verifica del Recupero

Dopo il recupero, valida lo stato del database:

SQL

SELECT * FROM critical_table WHERE id = 123;

Affrontare Problemi Potenziali

File WAL Mancanti o Corrotti

Problema

I file WAL necessari per il recupero sono mancanti o corrotti.

Soluzione

Assicurati che i backup e gli archivi WAL vengano convalidati regolarmente utilizzando strumenti come pg_verifybackup.
Utilizza uno storage ridondante per gli archivi WAL.

Obiettivo di Recupero Errato

Problema

Il recupero si ferma in uno stato non intenzionale.

Soluzione

Controlla attentamente recovery_target_time, recovery_target_lsn o recovery_target_name.
Utilizza pg_waldump per ispezionare i file WAL per eventi target.

Collo di Bottiglia nelle Prestazioni Durante il Recupero

Problema

Il recupero richiede troppo tempo a causa di file WAL di grandi dimensioni.

Soluzione

Ottimizza le prestazioni del recupero aumentando maintenance_work_mem e max_parallel_workers.
Utilizza la compressione WAL per ridurre la dimensione dei file.

Problemi di Scostamento dell’Orologio

Problema

I timestamp di recupero devono essere allineati a causa delle differenze di clock.

Soluzione

Sincronizza gli orologi del server utilizzando strumenti come NTP.

Archiviazione WAL Mal Configurata

Problema

Un archive_command errato causa fallimenti nell’archiviazione dei WAL.

Soluzione

Testare manualmente il archive_command: cp /path/to/test_wal /path/to/wal_archive/.
Assicurarsi di avere le autorizzazioni sufficienti per la directory di archiviazione.

Best Practices per PITR

Automatizzare i backup: Utilizzare strumenti come pgBackRest o Barman per backup programmati e archiviazione dei WAL.
Monitorare l’archiviazione dei WAL: Controllare regolarmente pg_stat_archiver per eventuali problemi.
Validare i backup: Verificare sempre l’integrità del backup utilizzando pg_verifybackup.
Testare le procedure di recupero: Simulare regolarmente scenari di recupero per garantire la prontezza.
Proteggere gli archivi WAL: Per gli archivi WAL, utilizzare uno storage sicuro e ridondante, come servizi cloud o dischi configurati in RAID.

Conclusione

Il ripristino a un punto nel tempo (PITR) è fondamentale per mantenere l’affidabilità del database e mitigare la perdita di dati in caso di incidente. Le migliorie di pgEdge e PostgreSQL 17 rendono il PITR più veloce, più efficiente e più facile da gestire, particolarmente per sistemi su larga scala o ad alta disponibilità.

Seguire i passaggi e le best practices di questa guida aiuterà a implementare e gestire efficacemente il PITR nei vostri ambienti PostgreSQL. Test regolari e monitoraggio sono essenziali per garantire che i processi di recupero siano disponibili quando ne avete più bisogno.

Source:
https://dzone.com/articles/point-in-time-recovery-pitr-in-postgresql