Guida e tutorialMonitor avanzati › Multi-region verifica disservizi

Multi-region verifica disservizi

4 min di lettura · Monitor avanzati

Verifica dei guasti multi-region

4 min di lettura

Il monitoring single-region ti sveglia alle tre di mattina per un falso allarme perché il nostro ISP ha avuto un route flap. Il multi-region risolve la questione: il guasto è confermato solo quando lo segnalano almeno 2 regioni su N.

Come funziona

  1. Il check primario (dal nostro server principale) dice DOWN.
  2. Prima dell'escalation il sistema chiama i secondary workers (3-5 location).
  3. Il worker esegue un test locale, restituisce UP/DOWN in 1-5 s.
  4. Se >= N worker confermano DOWN, il monitor viene marcato DOWN e partono gli alert.
  5. Se il primary ha detto DOWN ma i worker UP - era un flake, nessun alert.

Stato attuale di deployment

Attualmente abbiamo deployato un secondary worker - eu1 (regione UE). L'architettura è multi-region ready - aggiungere altre regioni è preparato lato backend e richiede solo il deployment di un altro nodo worker. Espansione pianificata nei prossimi mesi.

Come si vede nell'UI

Nel dettaglio del monitor per ogni evento DOWN vedi: