Multi-region проверка сбоев

4 мин чтения · Продвинутые мониторы

Multi-region верификация сбоев

4 мин чтения

Single-region мониторинг будит вас в три ночи на ложную тревогу, потому что у нашего ISP был route flap. Multi-region решает это: сбой подтверждается, только когда о нём сообщают primary И как минимум один secondary worker в другом регионе.

Как это работает

  1. Primary check (с нашего главного сервера) говорит DOWN.
  2. Перед эскалацией система вызывает secondary workers (3-5 локаций).
  3. Worker делает локальный тест, возвращает UP/DOWN за 1-5 с.
  4. Если ≥ N workers подтвердят DOWN, монитор помечается DOWN и приходят оповещения.
  5. Если primary сказал DOWN, но workers UP - это был flake, без оповещения.

Текущий статус развёртывания

В настоящее время у нас развёрнут один secondary worker - eu1 (регион ЕС). Архитектура multi-region ready - добавление новых регионов подготовлено на стороне бэкенда и требует только развёртывания ещё одного worker-узла. Расширение планируется в ближайшие месяцы.

Как это проявится в UI

В детали монитора при каждом DOWN event вы видите: