Ajuda e guiasMonitores avançados › Multi-region verificação de quedas

Multi-region verificação de quedas

4 min de leitura · Monitores avançados

Verificação multi-região de falhas

4 min de leitura

O monitoramento single-region te acorda às três da manhã com um alarme falso, porque nosso ISP teve um route flap. O multi-region resolve isto: a falha é confirmada apenas quando reportada por no mínimo 2 de N regiões.

Como funciona

  1. O primary check (do nosso servidor principal) diz DOWN.
  2. Antes de escalar, o sistema chama os secondary workers (3-5 localizações).
  3. O worker faz um teste local, retorna UP/DOWN em 1-5 s.
  4. Se N workers confirmarem DOWN, o monitor é marcado como DOWN e os alertas saem.
  5. Se o primary disse DOWN, mas os workers UP - foi um flake, nenhum alerta.

Estado atual de deployment

Atualmente temos deployado um secondary worker - eu1 (região UE). A arquitetura é multi-region ready - adicionar mais regiões está preparado no lado do backend e apenas requer o deployment de outro nó worker. Expansão planeada nos próximos meses.

Como se manifesta na UI

No detalhe do monitor, a cada evento DOWN você vê: