Pomoc i poradnikiZaawansowane monitory › Multi-region weryfikacja awarii

Multi-region weryfikacja awarii

4 min czytania · Zaawansowane monitory

Multi-region weryfikacja awarii

4 min czytania

Single-region monitoring budzi Cię o trzeciej w nocy na fałszywy alarm, bo nasz ISP miał route flap. Multi-region rozwiązuje to: awaria zostaje potwierdzona tylko, gdy zgłaszają ją primary I co najmniej jeden secondary worker w innym regionie.

Jak to działa

  1. Primary check (z naszego głównego serwera) powie DOWN.
  2. Przed eskalacją system woła secondary workers (3-5 lokalizacji).
  3. Worker robi lokalny test, zwraca UP/DOWN w 1-5 s.
  4. Jeśli ≥ N workerów potwierdzi DOWN, monitor zostaje oznaczony DOWN i lecą alerty.
  5. Jeśli primary powiedział DOWN, ale workers UP - to był flake, żadnego alertu.

Aktualny stan wdrożenia

Obecnie mamy wdrożony jeden secondary worker - eu1 (region UE). Architektura jest multi-region ready - dodanie kolejnych regionów jest przygotowane po stronie backendu i wymaga jedynie wdrożenia kolejnego węzła workera. Planujemy rozszerzenie w nadchodzących miesiącach.

Jak się to przejawia w UI

W szczegółach monitora przy każdym evencie DOWN widzisz: