Terug naar blog

False-positive uitvallen: hoe multi-region monitoring werkt

· 6 min lezen

Kort: De snelste manier voor je team om te stoppen met letten op uptime alerts is false-positives sturen. Multi-region cross-check vermindert ruis door een uitval als bevestigd te markeren alleen wanneer gerapporteerd door meerdere geografisch gescheiden sondes - niet één netwerk met slechte peering.

Kort: De snelste manier voor je team om te stoppen met letten op uptime alerts is false-positives sturen. Multi-region cross-check vermindert ruis door een uitval als bevestigd te markeren alleen wanneer gerapporteerd door meerdere geografisch gescheiden sondes - niet één netwerk met slechte peering.

Waarom single-region monitoring liegt

Klassieke monitoring heeft één observatiepositie (één server of cloud regio). Wanneer deze sonde geen antwoord krijgt, rapporteert het een uitval. Maar de oorzaak kan zijn:

  • Probleem in het eigen netwerk van de sonde (route flap, peering issue van hun provider)
  • Korte-termijn DNS glitch aan de kant van de sonde
  • Geografisch beperkte uitval (CDN edge in één land viel uit)
  • Rate limiting of IP block aan jouw infrastructuurkant

Vanuit het perspectief van echte gebruikers kan het web volledig OK zijn - alleen onbereikbaar voor één specifieke monitoring host.

Gevolg: alert fatigue

Een team dat 3 alerts per week over "uitval" krijgt, waarvan 2 false-positives, stopt geleidelijk met reageren. Wanneer er een echte uitval komt, is de reactie vertraagd of missen ze het volledig. Dit is alert fatigue - psychologisch geverifieerd fenomeen.

Het doel is signal-to-noise ratio. Beter 1 alert per maand en altijd echt, dan 10 alerts waarvan 7 ruis zijn.

Multi-region patroon: consensus van N sondes

Het principe:

  1. Je hebt N geografisch gedistribueerde sondes (bijv. EU-Central, US-East, Asia-Pacific).
  2. In elk interval testen alle sondes het endpoint parallel.
  3. Je voegt resultaten samen: uitval = bevestigd als gerapporteerd door M van N sondes (typisch M = 2 of meer).
  4. Single-region falen escaleert niet - zelfs als één sonde "down" zegt, zeggen de anderen "up", het systeem blijft in UP staat.

Dit heet consensus algorithm, vergelijkbaar met Raft of Paxos - de beslissing wordt bij meerderheid genomen.

Praktische setup

In het ePulz.io admin paneel wordt multi-region met één schakelaar ingeschakeld en geconfigureerd via:

  • Actieve regio's - lijst van workers, typisch 3-5
  • Consensus drempel - hoeveel regio's moeten DOWN zeggen (default: 2)
  • Worker token - shared secret tussen hoofdserver en workers voor auth

Bij elke check roept de hoofdserver alle workers parallel aan via HTTP API. De worker voert lokale HTTP/SSL/TCP/DNS test uit en geeft resultaat terug. De hoofd telt consensus en escaleert alleen alert bij overschrijden van de drempel.

Trade-offs

Voordelen:

  • Drastisch minder false-positive alerts
  • Geografische visualisatie - je ziet uit welke regio's de web niet werkt
  • Detectie van regionale uitvallen (Cloudflare PoP probleem, ISP route issue)

Nadelen:

  • Iets langere latency van echte uitval tot alert (wacht op consensus van meerdere bronnen)
  • Hogere eisen aan infrastructuur / plan prijs
  • Worker beschikbaarheid - als de helft van de workers zelf down is, kan de drempel niet bereikbaar zijn (oplossing: dynamic threshold = M van momenteel levende sondes)

Voorbeeld consensus berekening

Configuratie: 4 sondes (Frankfurt, Amsterdam, Virginia, Singapore), drempel = 2.

Scenario FRA AMS IAD SIN Alert?
Alles OK UP UP UP UP Nee
Singapore heeft route probleem UP UP UP DOWN Nee (slechts 1)
EU regio down DOWN DOWN UP UP Ja (2≥2)
Globale uitval DOWN DOWN DOWN DOWN Ja

Hoe eigen workers in te zetten

Een worker is een eenvoudige service (HTTP POST endpoint /check) die een test uitvoert en resultaat retourneert. ePulz.io ondersteunt eigen workers via WireGuard tunnel - dus workers kunnen draaien op elke VPS zonder publieke IP en communiceren met hoofdserver via versleutelde tunnel.

Praktische configuratie duurt ~10 minuten per worker (apt install wireguard, peer config kopiëren, systemctl enable). Hiermee krijg je echt onafhankelijke observatieposities - niet allemaal in het Frankfurt datacenter.

Conclusie

Multi-region monitoring is geen marketing buzzword. Het is een concreet engineering patroon (quorum / consensus) dat monitoring verschuift van "ik zie wat één netwerkpositie ziet" naar "ik zie wat internet ziet". Voor business critical applicaties is dit vandaag de standaard.

Elimineer false-positive alerts

Multi-region cross-check in basisplannen (niet alleen Enterprise). 7 dagen gratis.

Monitoring starten →


Probeer ePulz.io gratis - 7 dagen zonder creditcard.

Account aanmaken