Multi-region vérification de pannes
Vérification multi-régions des pannes
4 min de lecture
La surveillance mono-région vous réveille à trois heures du matin sur une fausse alerte, parce que notre ISP a eu un route flap. La multi-région résout cela : la panne n'est confirmée que lorsqu'elle est signalée par au moins 2 régions sur N.
Comment cela fonctionne
- La vérification principale (depuis notre serveur main) dit DOWN.
- Avant escalade, le système appelle les workers secondaires (3-5 emplacements).
- Le worker fait un test local, retourne UP/DOWN en 1-5 s.
- Si >= N workers confirment DOWN, le moniteur est marqué DOWN et les alertes partent.
- Si le principal a dit DOWN mais les workers UP - c'était un flake, aucune alerte.
État de déploiement actuel
Actuellement nous avons déployé un secondary worker - eu1 (région UE). L'architecture est multi-region ready - ajouter d'autres régions est préparé côté backend et ne nécessite que le déploiement d'un autre nœud worker. Expansion prévue dans les mois à venir.
Comment cela se manifeste dans l'UI
Dans le détail du moniteur, pour chaque évènement DOWN, vous voyez :