Multi-Region Ausfall-Verifikation
Multi-Region-Verifizierung von Ausfällen
4 Min. Lesezeit
Single-Region-Monitoring weckt Sie um drei Uhr morgens wegen eines Fehlalarms, weil unser ISP einen Route Flap hatte. Multi-Region löst dies: Ein Ausfall wird nur bestätigt, wenn ihn der Primary UND mindestens ein Secondary Worker in einer anderen Region melden.
So funktioniert es
- Primary Check (von unserem Hauptserver) meldet DOWN.
- Vor der Eskalation ruft das System secondary workers (3-5 Standorte) auf.
- Der Worker führt einen lokalen Test durch, gibt UP/DOWN in 1-5 s zurück.
- Wenn >= N Worker DOWN bestätigen, wird der Monitor als DOWN markiert und Benachrichtigungen werden gesendet.
- Wenn der Primary DOWN meldet, aber die Workers UP - war es ein Flake, keine Benachrichtigung.
Aktueller Deployment-Stand
Derzeit haben wir einen Secondary Worker - eu1 (EU-Region) im Einsatz. Die Architektur ist multi-region ready - das Hinzufügen weiterer Regionen ist auf Backend-Seite vorbereitet und erfordert nur die Bereitstellung eines weiteren Worker-Knotens. Erweiterung in den kommenden Monaten geplant.
Wie es sich in der UI zeigt
Im Monitor-Detail sehen Sie bei jedem DOWN-Event: