Verständnis und Reduzierung des PostgreSQL-Replikationsverzögerungs

Tutorials

PostgreSQL

Replikationsverzögerung in PostgreSQL tritt auf, wenn Änderungen, die auf dem Primärserver vorgenommen wurden, Zeit brauchen, um sich auf dem Replikaserver zu spiegeln. Egal, ob Sie Streaming- oder logische Replikation verwenden, kann Verzögerung die Leistung, Konsistenz und Systemverfügbarkeit beeinträchtigen. Dieser Beitrag behandelt die Arten der Replikation, ihre Unterschiede, Ursachen für Verzögerungen, mathematische Formeln zur Schätzung von Verzögerungen, Überwachungstechniken und Strategien zur Minimierung von Replikationsverzögerungen.

Arten der Replikation in PostgreSQL

Streaming-Replikation

Streaming-Replikation sendet kontinuierlich Write-Ahead-Log (WAL)-Änderungen vom Primär- zum einem oder mehreren Replikaservern in Echtzeit. Das Replika wendet die Änderungen sequenziell an, sobald sie empfangen werden. Diese Methode repliziert die gesamte Datenbank und stellt sicher, dass die Replikate synchron bleiben.

Vorteile

Niedrige Latenz bei nahezu Echtzeitsynchronisation.
Effizient für die Replikation der gesamten Datenbank.

Nachteile

Replikate sind schreibgeschützt, daher müssen alle Schreibanforderungen an den Primärknoten gesendet werden.
Bei Unterbrechung der Netzwerkverbindung kann die Verzögerung erheblich zunehmen.

Logische Replikation

Logische Replikation überträgt Datenänderungen auf Datenebene anstelle von Low-Level-WAL-Daten. Es ermöglicht selektive Replikation, bei der nur bestimmte Tabellen oder Teile einer Datenbank repliziert werden. Die logische Replikation verwendet einen logischen Dekodierungsprozess, um WAL-Änderungen in SQL-ähnliche Änderungen umzuwandeln.

Vorteile

Ermöglicht die selektive Replikation bestimmter Tabellen oder Schemata.
Unterstützt beschreibbare Replikate mit Konfliktlösungsoptionen.

Nachteile

Höhere Latenz aufgrund des logischen Dekodierungsaufwands.
Weniger effizient als die Streaming-Replikation für große Datensätze.

Wie Replikationsverzögerungen auftreten

Replikationsverzögerungen treten auf, wenn die Rate, mit der Änderungen auf dem Primärserver generiert werden, die Rate überschreitet, mit der sie auf dem Replikatserver verarbeitet und angewendet werden können. Dieses Ungleichgewicht kann auf verschiedene zugrunde liegende Faktoren zurückzuführen sein, die jeweils zu Verzögerungen bei der Datensynchronisierung beitragen. Die häufigsten Ursachen für Replikationsverzögerungen sind:

Netzwerklatenz

Netzwerklatenz bezieht sich auf die Zeit, die Daten vom Primärserver zum Replikatserver übertragen werden. WAL (Write-Ahead-Log)-Segmente werden während der Streaming-Replikation kontinuierlich über das Netzwerk übertragen. Selbst geringfügige Verzögerungen bei der Netzwerkübertragung können sich akkumulieren und dazu führen, dass das Replikat zurückbleibt.

Ursachen

Hohe Netzwerk-RTT-Zeiten.
Mehr Bandbreite, um hohe Volumina von WAL-Daten zu verarbeiten.
Netzwerküberlastung oder Paketverlust.

Wenn der primäre Server während starkem Verkehr signifikante Änderungen generiert, kann ein langsames oder überlastetes Netzwerk einen Engpass verursachen, der verhindert, dass die Replikation die WAL-Änderungen empfängt.

Lösung

Verwenden Sie Netzwerkverbindungen mit geringer Latenz und hoher Bandbreite und aktivieren Sie die WAL-Komprimierung (wal_compression = on), um die Datengröße während der Übertragung zu reduzieren.

I/O-Engpässe

I/O-Engpässe treten auf, wenn die Festplatte eines Replikationsservers zu langsam ist, um die eingehenden WAL-Änderungen zu schreiben. Die Streaming-Replikation basiert darauf, Änderungen auf die Festplatte zu schreiben, bevor sie angewendet werden, daher können Verzögerungen im I/O-Subsystem dazu führen, dass sich die Verzögerung aufbaut.

Ursachen

Langsame oder überlastete Festplatten (HDDs).
Unzureichende Durchsatzrate des Festplattenschreibens.
Festplattenkonflikte mit anderen Prozessen.
Wenn der Replikationsserver Festplattenlaufwerke (HDD) anstelle von Solid-State-Laufwerken (SSD) verwendet, können WAL-Änderungen möglicherweise nicht schnell genug geschrieben werden, um mit den Datenänderungen Schritt zu halten, was dazu führt, dass die Replikation dem primären Server hinterherhinkt.

Lösung

Um die Festplatten-I/O einer Replikation zu optimieren, verwenden Sie SSDs für schnellere Schreibgeschwindigkeiten und isolieren Sie Replikationsprozesse von anderen festplattenintensiven Aufgaben.

CPU-/Speicherbeschränkungen

Replikationsprozesse benötigen CPU und Speicher, um Änderungen zu decodieren, zu schreiben und anzuwenden. Wenn ein Replikatserver nicht über ausreichende Rechenleistung oder Speicher verfügt, kann es schwierig werden, mit den eingehenden Änderungen Schritt zu halten, was zu Replikationsverzögerungen führt.

Ursachen

Begrenzte CPU-Kerne oder langsame Prozessoren.
Unzureichender Speicher für WAL-Puffer.
Andere Prozesse verbrauchen CPU- oder Speicherressourcen.
Wenn das Replikat große Transaktionen verarbeitet oder Abfragen gleichzeitig mit der Replikation ausführt, kann die CPU überlastet werden, was den Replikationsprozess verlangsamt.

Lösung

Weisen Sie dem Replikatserver mehr CPU-Kerne und Speicher zu. Erhöhen Sie die Größe der wal_buffers, um die Effizienz der WAL-Verarbeitung zu verbessern.

Hohe Arbeitslasten auf dem Primärserver

Replikationsverzögerungen können auch auftreten, wenn der Primärserver zu viele Änderungen zu schnell generiert, als dass das Replikat sie verarbeiten könnte. Große Transaktionen, Masseneinfügungen oder häufige Updates können die Replikation überwältigen.

Ursachen

Massendatenimporte oder große Transaktionen.
Hochfrequente Updates an großen Tabellen.
Hohe Parallelitätslasten auf dem Primärserver.
Die Transaktionslast kann zu hoch sein, wenn der Primärserver mehrere große Transaktionen gleichzeitig verarbeitet, wie während eines Massendatenimports. Das Volumen der WAL-Daten kann das übersteigen, was das Replikat in Echtzeit verarbeiten kann, was die Verzögerung erhöht.

Lösung

Optimieren Sie Transaktionen, indem Sie mehr kleinere Updates zusammenfassen und lange Transaktionen vermeiden. Wenn strenge Synchronisation nicht entscheidend ist, verwenden Sie asynchrone Replikation, um die Replikationslast zu reduzieren.

Ressourcenkonflikt

Ressourcenkonflikte treten auf, wenn mehrere Prozesse um die gleichen Ressourcen wie CPU, Speicher oder Festplatten-E/A konkurrieren. Dies kann auf dem Primär- oder Replikatserver auftreten und zu Verzögerungen bei der Replikationsverarbeitung führen.

Ursachen

Andere Prozesse verbrauchen Festplatten-E/A, CPU oder Speicher.
Hintergrundaufgaben wie Backups oder gleichzeitige Analyseausführung.
Netzwerküberlastung zwischen Replikationsverkehr und anderen Datenübertragungen.
Wenn der Replikatserver auch Backups oder analytische Abfragen ausführt, kann der Wettbewerb um CPU- und Festplattenressourcen den Replikationsprozess verlangsamen.

Lösung

Isolieren Sie Replikations-Workloads von anderen ressourcenintensiven Prozessen. Planen Sie Backups und Analysen außerhalb der Stoßzeiten, um Interferenzen mit der Replikation zu vermeiden.

Mathematische Formel für Replikationsverzögerung

Verwenden Sie die folgende Formel, um die Replikationsverzögerung zu berechnen:

Bei logischer Replikation wird zusätzliche Zeit für die logische Dekodierung benötigt:

Überwachung der Replikationsverzögerung

Streaming-Replikationsüberwachung

Die Ansicht pg_stat_replication kann verwendet werden, um den Streaming-Replikationsverzug zu überwachen. Sie bietet Einblicke in den Zustand und den Verzug zwischen den Primär- und Replikaservern.

SQL

SELECT application_name, state, 

​

       pg_size_pretty(sent_lsn - write_lsn) AS lag_bytes,

​

       sync_state

​

FROM pg_stat_replication;

​

​

sent_lsn: Letzter WAL-Standort, der an das Replica gesendet wurde.
write_lsn: Letzter WAL-Standort, der auf dem Replica geschrieben wurde.
lag_bytes: Der Unterschied zwischen den beiden zeigt den Verzug an.

Überwachung der logischen Replikation

Die Verzögerung der logischen Replikation kann mit der Ansicht pg_stat_subscription überwacht werden.

SQL

SELECT subscription_name, active,

​

       pg_size_pretty(pg_current_wal_lsn() - replay_lsn) AS lag_bytes

​

FROM pg_stat_subscription;

​

​

Beispiel: Visualisierung des Replikationsverzugs

Der folgende Python-Codeausschnitt visualisiert den Verzögerung bei der Streaming- und logischen Replikation im Laufe der Zeit.

Python

import matplotlib.pyplot as plt

​

time = ['12:00', '12:10', '12:20', '12:30', '12:40', '12:50', '13:00']

streaming_lag = [0.5, 0.6, 0.4, 0.7, 1.0, 0.9, 0.6]

logical_lag = [2.0, 2.5, 3.0, 2.8, 3.5, 4.0, 3.2]

​

plt.plot(time, streaming_lag, label='Streaming Replication Lag', marker='o')

plt.plot(time, logical_lag, label='Logical Replication Lag', marker='s')

​

plt.xlabel('Time')

plt.ylabel('Lag (seconds)')

plt.title('Replication Lag Over Time')

​

plt.legend()

plt.grid(True)

​

# Save the plot as an image file

plt.savefig('replication_lag_plot.png')

​

print("Plot saved as replication_lag_plot.png")

Der resultierende Graph vergleicht die Leistung der Streaming- und logischen Replikation. Die logische Replikation neigt aufgrund von Decodierungs- und Verarbeitungsüberlastung dazu, einen variableren Verzug zu haben.

Wie man den Replikationsverzug reduziert

1. Optimieren Sie die WAL-Konfiguration

Erhöhen Sie wal_buffers, um mehr WAL-Daten im Speicher zu halten.
Setzen Sie wal_writer_delay auf einen niedrigeren Wert (z. B. 10 ms), um WAL-Daten schneller zu schreiben.

Shell

wal_buffers = 64MB

​

wal_writer_delay = 10ms

2. Verbesserung der Netzwerk-Performance

Verwenden Sie netzwerkverbindungen mit geringer Latenz und hoher Bandbreite zwischen Primär- und Replikas.
Komprimieren Sie WAL-Daten während der Übertragung, um die Übertragungszeit zu reduzieren: wal_compression = on.

3. Verwenden Sie asynchrone Replikation (wenn möglich)

Asynchrone Replikation reduziert Verzögerungen, indem sie nicht auf die Bestätigung der Replika für Änderungen wartet, bringt jedoch ein Datenverlustrisiko mit sich.

PLSQL

ALTER SYSTEM SET synchronous_commit = 'off';

4. Aktivieren Sie parallele Anwendung in der logischen Replikation

PostgreSQL 14+ ermöglicht die parallele Anwendung logischer Änderungen, was die Verzögerung bei großen Transaktionen reduziert.

PLSQL

ALTER SUBSCRIPTION my_subscription SET (parallel_apply = on);

5. Weisen Sie Replikaten mehr Ressourcen zu

Stellen Sie sicher, dass die Replica über genügend CPU und Arbeitsspeicher verfügt, um WAL-Änderungen schnell zu verarbeiten.
Verwenden Sie SSDs für schnellere Festplatten-I/O auf der Replica.

6. Batch-Transaktionen

Fassen Sie mehrere kleinere Updates in weniger Transaktionen zusammen, um den Overhead zu minimieren.

Echte Beispiele

Reduzierung der Streaming-Replikationsverzögerung

Ein Unternehmen, das einen stark frequentierten PostgreSQL-Cluster betreibt, hatte während der Stoßzeiten mit Replikationsverzögerungen zu kämpfen. Sie halbierten die Replikationsverzögerung, indem sie wal_buffers auf 64 MB erhöhten und wal_writer_delay auf 10 ms reduzierten. Der Wechsel zu einer Hochgeschwindigkeitsnetzwerkverbindung reduzierte die Verzögerung auf weniger als eine Sekunde.

Reduzierung der logischen Replikationsverzögerung

Ein System mit mehreren logischen Abonnements hatte während hoher Schreiblasten mit Verzögerungen zu kämpfen. Die Aktivierung der parallelen Anwendung in PostgreSQL 14 verteilte die Arbeitslast auf zahlreiche Worker und reduzierte die Replikationsverzögerung von 4 Sekunden auf unter 1 Sekunde.

Fazit

Replikationsverzögerung ist ein kritisches Problem, das die Leistung und Konsistenz von PostgreSQL-Systemen beeinträchtigt. Die Streaming-Replikation bietet eine geringe Latenz, erfordert jedoch, dass die gesamte Datenbank repliziert wird, während die logische Replikation Flexibilität bietet, jedoch mit höherem Overhead. Regelmäßiges Monitoring mit pg_stat_replication und pg_stat_subscription ermöglicht es Administratoren, Verzögerungen zu erkennen und zu mindern.

Die Optimierung von WAL-Konfigurationen, die Verbesserung der Netzwerkperformance, die Verwendung paralleler Anwendungen und die Zuweisung ausreichender Ressourcen können die Verzögerung signifikant reduzieren. Durch eine ordnungsgemäße Abstimmung wird sichergestellt, dass Replikate synchron bleiben und das System eine hohe Verfügbarkeit und Leistung beibehält.

Source:
https://dzone.com/articles/understanding-and-reducing-postgresql-replication-lag