Zpět na blog

False-positive výpadky: jak funguje multi-region monitoring

· 6 min čtení

Ve zkratce: Nejrychlejší cesta k tomu, aby si váš tým přestal všímat uptime alertů, je posílat false-positive. Multi-region cross-check snižuje šum tím, že označí výpadek až když ho potvrdí více geograficky oddělených sond - ne jedna síť se špatným peering-em.

Ve zkratce: Nejrychlejší cesta k tomu, aby si váš tým přestal všímat uptime alertů, je posílat false-positive. Multi-region cross-check snižuje šum tím, že označí výpadek až když ho potvrdí více geograficky oddělených sond - ne jedna síť se špatným peering-em.

Proč single-region monitoring lže

Klasický monitoring má jednu pozorovací pozici (jeden server nebo cloud región). Když tato sonda nedostane odpověď, oznámí výpadek. Jenže příčinou může být:

  • Problém v síti samotné sondy (route flap, peering issue jejich providera)
  • Krátkodobý DNS glitch na straně sondy
  • Geograficky omezený výpadek (CDN edge v jedné zemi padl)
  • Rate limiting nebo IP block na straně vaší infrastruktury

Z perspektivy reálných uživatelů může být web úplně v pořádku - jen nedostupný pro konkrétní monitoring host.

Důsledek: alert fatigue

Tým, který dostává 3 alerty týdně na "výpadek", z nichž 2 jsou false-positive, postupně přestane reagovat. Když přijde reálný výpadek, reakce je opožděná nebo ho úplně přehlédnou. Toto je alert fatigue - psychologicky ověřený jev.

Cílem je signal-to-noise ratio. Lepší 1 alert měsíčně a vždy reálný, než 10 alertů, z nichž 7 jsou šum.

Multi-region pattern: consensus z N sond

Princip:

  1. Máte N geograficky distribuovaných sond (např. EU-Central, US-East, Asia-Pacific).
  2. Při každém intervalu všechny sondy paralelně otestují endpoint.
  3. Výsledek sloučíte: výpadek = potvrzený, pokud ho hlásí M z N sond (typicky M = 2 nebo více).
  4. Single-region selhání se nezeskaluje - i když jedna sonda říká "down", ostatní říkají "up", systém zůstává ve stavu UP.

Toto se nazývá consensus algorithm, podobně jako u Raft nebo Paxos - rozhodnutí se dělá majoritou.

Praktické nastavení

V ePulz.io admin panelu se multi-region zapne jedním přepínačem a nakonfiguruje se přes:

  • Aktivní regiony - seznam workerů, typicky 3-5
  • Consensus threshold - kolik regionů musí říct DOWN (default: 2)
  • Worker token - shared secret mezi main serverem a worker-y pro auth

Při každém checku main server paralelně volá všechny workery přes HTTP API. Worker vykoná lokální HTTP/SSL/TCP/DNS test a vrátí výsledek. Main počítá consensus a teprve při překonání threshold zeskaluje alert.

Trade-offs

Plusy:

  • Drasticky méně false-positive alertů
  • Geografická vizualizace - vidíte z kterých regionů web nefunguje
  • Detekce regionálních výpadků (Cloudflare PoP problém, ISP route issue)

Mínusy:

  • Mírně delší latence od reálního výpadku po alert (čeká se na consensus z více zdrojů)
  • Vyšší nároky na infrastrukturu / cenu plánu
  • Worker disponibilita - pokud je polovina workerů sama dole, threshold nemusí být dosažitelný (řešení: dynamic threshold = M z aktuálně živých sond)

Příklad consensus výpočtu

Konfigurace: 4 sondy (Frankfurt, Amsterdam, Virginia, Singapore), threshold = 2.

Scénář FRA AMS IAD SIN Alert?
Všechno OK UP UP UP UP Ne
Singapore má route problém UP UP UP DOWN Ne (jen 1)
EU region down DOWN DOWN UP UP Ano (2≥2)
Globální výpadok DOWN DOWN DOWN DOWN Ano

Jak nasadit vlastních workerů

Worker je jednoduchá služba (HTTP POST endpoint /check), která vykoná test a vrátí výsledek. ePulz.io podporuje vlastních workerů přes WireGuard tunel - takže workeři mohou běžet na jakékoli VPS bez veřejné IP a komunikovat s main serverem přes šifrovaný tunel.

Praktická konfigurace trvá ~10 minut na worker (apt install wireguard, kopírování peer configu, systemctl enable). Tímto získate naozaj nezávislé pozorovací pozice - ne všechny ve Frankfurt datacentru.

Závěr

Multi-region monitoring není marketing buzzword. Je to konkrétní inženýrský vzor (quorum / consensus), který posouvá monitoring ze "vidím, co vidí jedna síťová pozice" na "vidím, co vidí internet". Pro business critical aplikace je to dnes standard.

Eliminujte false-positive alerty

Multi-region cross-check v základních plánech (ne jen Enterprise). 7 dní zdarma.

Spustit monitoring →


Vyzkoušejte ePulz.io zdarma - 7 dní bez kreditní karty.

Vytvořit účet