Torna al blog

Outage false-positive: come funziona il monitoraggio multi-region

· 6 min di lettura

In breve: La via più rapida perché il tuo team smetta di prestare attenzione agli alert uptime è inviare false-positive. Il cross-check multi-region riduce il rumore segnando un outage come confermato solo quando lo riportano più sonde geograficamente separate - non una rete con cattivo peering.

In breve: La via più rapida perché il tuo team smetta di prestare attenzione agli alert uptime è inviare false-positive. Il cross-check multi-region riduce il rumore segnando un outage come confermato solo quando lo riportano più sonde geograficamente separate - non una rete con cattivo peering.

Perché il monitoraggio single-region mente

Il monitoraggio classico ha una posizione di osservazione (un server o regione cloud). Quando questa sonda non ottiene risposta, segnala un outage. Ma la causa può essere:

  • Problema nella rete della sonda stessa (route flap, peering issue del loro provider)
  • Glitch DNS a breve termine dal lato sonda
  • Outage geograficamente limitato (CDN edge in un paese è caduto)
  • Rate limiting o IP block dal lato della tua infrastruttura

Dal punto di vista degli utenti reali il web può essere completamente OK - solo non disponibile per un host di monitoraggio specifico.

Conseguenza: alert fatigue

Un team che riceve 3 alert a settimana per "outage", di cui 2 sono false-positive, gradualmente smette di reagire. Quando arriva un outage reale, la reazione è ritardata o lo perdono completamente. Questa è alert fatigue - fenomeno psicologicamente verificato.

L'obiettivo è il signal-to-noise ratio. Meglio 1 alert al mese e sempre reale, che 10 alert di cui 7 sono rumore.

Pattern multi-region: consenso da N sonde

Il principio:

  1. Hai N sonde geograficamente distribuite (es. EU-Central, US-East, Asia-Pacific).
  2. Ad ogni intervallo tutte le sonde testano l'endpoint in parallelo.
  3. Unisci i risultati: outage = confermato se riportato da M di N sonde (tipicamente M = 2 o più).
  4. Fallimento single-region non escala - anche se una sonda dice "down", le altre dicono "up", il sistema rimane in stato UP.

Questo si chiama consensus algorithm, simile a Raft o Paxos - la decisione viene presa a maggioranza.

Configurazione pratica

Nel pannello admin ePulz.io il multi-region si attiva con un interruttore e si configura tramite:

  • Regioni attive - elenco worker, tipicamente 3-5
  • Soglia di consenso - quante regioni devono dire DOWN (default: 2)
  • Token worker - shared secret tra server principale e worker per auth

Ad ogni check il server principale chiama tutti i worker in parallelo via HTTP API. Il worker esegue test locale HTTP/SSL/TCP/DNS e restituisce il risultato. Il principale conta consenso e solo al superamento della soglia escala alert.

Trade-off

Pro:

  • Drasticamente meno alert false-positive
  • Visualizzazione geografica - vedi da quali regioni il web non funziona
  • Rilevamento di outage regionali (problema Cloudflare PoP, ISP route issue)

Contro:

  • Latenza leggermente maggiore dall'outage reale all'alert (aspetta consenso da più sorgenti)
  • Richieste maggiori su infrastruttura / prezzo del piano
  • Disponibilità worker - se metà dei worker sono essi stessi down, la soglia può non essere raggiungibile (soluzione: dynamic threshold = M delle sonde attualmente vive)

Esempio di calcolo del consenso

Configurazione: 4 sonde (Frankfurt, Amsterdam, Virginia, Singapore), soglia = 2.

Scenario FRA AMS IAD SIN Alert?
Tutto OK UP UP UP UP No
Singapore ha problema route UP UP UP DOWN No (solo 1)
Regione EU down DOWN DOWN UP UP Sì (2≥2)
Outage globale DOWN DOWN DOWN DOWN

Come distribuire i propri worker

Un worker è un servizio semplice (endpoint HTTP POST /check) che esegue un test e restituisce il risultato. ePulz.io supporta i propri worker tramite tunnel WireGuard - così i worker possono girare su qualsiasi VPS senza IP pubblico e comunicare con il server principale tramite tunnel cifrato.

La configurazione pratica richiede ~10 minuti per worker (apt install wireguard, copia peer config, systemctl enable). In questo modo ottieni davvero posizioni di osservazione indipendenti - non tutte nel datacenter Frankfurt.

Conclusione

Il monitoraggio multi-region non è un buzzword di marketing. È un pattern di ingegneria concreto (quorum / consensus) che sposta il monitoraggio da "vedo cosa vede una posizione di rete" a "vedo cosa vede internet". Per applicazioni business critical, oggi è lo standard.

Elimina gli alert false-positive

Cross-check multi-region nei piani base (non solo Enterprise). 7 giorni gratis.

Avvia monitoraggio →


Prova ePulz.io gratis - 7 giorni senza carta di credito.

Crea account