Aide et guidesMoniteurs avancés › Multi-region vérification de pannes

Multi-region vérification de pannes

4 min de lecture · Moniteurs avancés

Vérification multi-régions des pannes

4 min de lecture

La surveillance mono-région vous réveille à trois heures du matin sur une fausse alerte, parce que notre ISP a eu un route flap. La multi-région résout cela : la panne n'est confirmée que lorsqu'elle est signalée par au moins 2 régions sur N.

Comment cela fonctionne

  1. La vérification principale (depuis notre serveur main) dit DOWN.
  2. Avant escalade, le système appelle les workers secondaires (3-5 emplacements).
  3. Le worker fait un test local, retourne UP/DOWN en 1-5 s.
  4. Si >= N workers confirment DOWN, le moniteur est marqué DOWN et les alertes partent.
  5. Si le principal a dit DOWN mais les workers UP - c'était un flake, aucune alerte.

État de déploiement actuel

Actuellement nous avons déployé un secondary worker - eu1 (région UE). L'architecture est multi-region ready - ajouter d'autres régions est préparé côté backend et ne nécessite que le déploiement d'un autre nœud worker. Expansion prévue dans les mois à venir.

Comment cela se manifeste dans l'UI

Dans le détail du moniteur, pour chaque évènement DOWN, vous voyez :