Pomoc a návodyPokročilé monitory › Multi-region overenie výpadkov

Multi-region overenie výpadkov

4 min čítania · Pokročilé monitory

Multi-region overenie výpadkov

4 min čítania

Single-region monitoring vás budí o tretej ráno na falošný alarm, lebo náš ISP mal route flap. Multi-region architektúra rieši toto: výpadok sa potvrdí len keď ho hlási primary aj aspoň jeden secondary worker v inom regióne / ISP.

Ako to funguje

  1. Primary check (z nášho hlavného servera) povie DOWN.
  2. Pred eskaláciou systém zavolá secondary worker v inom regióne.
  3. Worker urobí lokálny test, vráti UP/DOWN za 1-5 s.
  4. Ak worker potvrdí DOWN, monitor sa označí DOWN a chodia alerty.
  5. Ak primary povedal DOWN, ale worker UP - bol to flake, žiadny alert.

Aktuálny stav nasadenia

Aktuálne máme nasadený jeden secondary worker - eu1 (EÚ región). Architektúra je multi-region ready - pridanie ďalších regiónov je pripravené na strane backendu a vyžaduje len nasadenie ďalšieho worker uzla. Plánujeme rozšírenie počas nasledujúcich mesiacov.

  • Aktívne: primary + eu1 = 2-bodový consensus
  • Roadmap: us-east, ap-southeast (alebo ďalšie podľa dopytu klientov)

Dostupnosť podľa plánu

  • Multi-region overenie (primary + eu1) je automaticky aktívne pre všetky monitory v plánoch Štandard a vyššie.
  • Akonáhle nasadíme ďalšie regióny, budú postupne aktivované podľa plánu (napríklad Business plán bude mať vyšší počet workerov v consensus).

Ako sa to prejaví v UI

V detaile monitora pri každom DOWN evente vidíte výsledok consensus:

consensus: primary:down, eu1:down
result: DOWN (2 of 2 confirmed)

Praktické dôsledky

  • Menej false positive alertov - lokálny ISP flake na strane primary servera sa potvrdí (alebo nie) z eu1
  • Mierne dlhšia latencia detekcie - +2-5 s na consensus query (oproti single-region)
  • Geografická vizualizácia - pripravené, plne sa využije po pridaní ďalších regiónov