Voltar ao blog

Quedas false-positive: como funciona a monitorização multi-region

· 6 min de leitura

Em resumo: A forma mais rápida da tua equipa parar de prestar atenção aos alertas uptime é enviar false-positives. Um cross-check multi-region reduz o ruído marcando uma queda como confirmada apenas quando reportada por múltiplas sondas geograficamente separadas - não uma rede com peering mau.

Em resumo: A forma mais rápida da tua equipa parar de prestar atenção aos alertas uptime é enviar false-positives. Um cross-check multi-region reduz o ruído marcando uma queda como confirmada apenas quando reportada por múltiplas sondas geograficamente separadas - não uma rede com peering mau.

Porque a monitorização single-region mente

A monitorização clássica tem uma posição de observação (um servidor ou região cloud). Quando esta sonda não recebe resposta, reporta uma queda. Mas a causa pode ser:

  • Problema na rede da própria sonda (route flap, peering issue do seu provedor)
  • Glitch DNS de curto prazo do lado da sonda
  • Queda geograficamente limitada (CDN edge num país caiu)
  • Rate limiting ou IP block do lado da tua infraestrutura

Da perspetiva dos utilizadores reais o web pode estar completamente OK - apenas indisponível para um host de monitorização específico.

Consequência: alert fatigue

Uma equipa que recebe 3 alertas semanais sobre "queda", dos quais 2 são false-positive, progressivamente deixa de reagir. Quando vem uma queda real, a reação é atrasada ou perdem-na completamente. Isto é alert fatigue - fenómeno psicologicamente verificado.

O objetivo é o signal-to-noise ratio. Melhor 1 alerta por mês e sempre real, do que 10 alertas dos quais 7 são ruído.

Padrão multi-region: consenso de N sondas

O princípio:

  1. Tens N sondas geograficamente distribuídas (ex. EU-Central, US-East, Asia-Pacific).
  2. A cada intervalo todas as sondas testam o endpoint em paralelo.
  3. Fundes resultados: queda = confirmada se reportada por M de N sondas (tipicamente M = 2 ou mais).
  4. Falha single-region não escala - mesmo se uma sonda diz "down", as outras dizem "up", o sistema permanece em estado UP.

Isto chama-se consensus algorithm, semelhante ao Raft ou Paxos - a decisão é tomada por maioria.

Configuração prática

No painel admin ePulz.io o multi-region ativa-se com um interruptor e configura-se via:

  • Regiões ativas - lista de workers, tipicamente 3-5
  • Limiar de consenso - quantas regiões têm de dizer DOWN (default: 2)
  • Token de worker - shared secret entre servidor principal e workers para auth

A cada check o servidor principal chama todos os workers em paralelo via HTTP API. O worker executa teste local HTTP/SSL/TCP/DNS e devolve o resultado. O principal conta consenso e só ao superar o limiar escala alerta.

Trade-offs

Prós:

  • Drasticamente menos alertas false-positive
  • Visualização geográfica - vês de que regiões o web não funciona
  • Deteção de quedas regionais (problema Cloudflare PoP, ISP route issue)

Contras:

  • Latência ligeiramente maior da queda real ao alerta (espera consenso de várias fontes)
  • Maiores exigências em infraestrutura / preço do plano
  • Disponibilidade de workers - se metade dos workers está em si mesma down, o limiar pode não ser atingível (solução: dynamic threshold = M das sondas atualmente vivas)

Exemplo de cálculo de consenso

Configuração: 4 sondas (Frankfurt, Amsterdam, Virginia, Singapore), limiar = 2.

Cenário FRA AMS IAD SIN Alerta?
Tudo OK UP UP UP UP Não
Singapore tem problema route UP UP UP DOWN Não (apenas 1)
Região EU down DOWN DOWN UP UP Sim (2≥2)
Queda global DOWN DOWN DOWN DOWN Sim

Como implementar os teus próprios workers

Um worker é um serviço simples (endpoint HTTP POST /check) que executa teste e devolve resultado. O ePulz.io suporta os teus próprios workers via tunnel WireGuard - assim os workers podem correr em qualquer VPS sem IP pública e comunicar com servidor principal via tunnel encriptado.

A configuração prática demora ~10 minutos por worker (apt install wireguard, copiar peer config, systemctl enable). Com isto consegues realmente posições de observação independentes - não todas no datacenter Frankfurt.

Conclusão

A monitorização multi-region não é buzzword de marketing. É um padrão de engenharia concreto (quorum / consensus) que move a monitorização de "vejo o que vê uma posição de rede" para "vejo o que vê a internet". Para aplicações business critical é hoje o padrão.

Elimina alertas false-positive

Cross-check multi-region em planos básicos (não apenas Enterprise). 7 dias grátis.

Iniciar monitorização →


Experimente o ePulz.io grátis - 7 dias sem cartão de crédito.

Criar conta