Incident-Verlauf, MTTR, MTBF

3 Min. Lesezeit

Die Statistiken beantworten Fragen wie "Wie oft fällt es aus", "Wie lange dauert es, bis es zurückkommt", "Wann hatten wir die schlimmste Woche". Im Monitor-Detail -> Tab Statistiken.

Schlüsselmetriken

Uptime %

Verhältnis der UP-Zeit zur Gesamtzeit. Klassische Metrik. ePulz.io berechnet über 24h / 7d / 30d / 90d / 365d Windows.

MTTR (Mean Time To Recovery)

Durchschnittliche Zeit von der DOWN-Erkennung bis zur Rückkehr in UP. Wenn Sie 5 Incidents haben und jeder 8 Minuten dauerte, MTTR = 8 Min. Ziel: Reduzieren durch besseres Alerting, Auto-Restart, on-call-Rotationen.

MTBF (Mean Time Between Failures)

Durchschnittliche Zeit zwischen Ausfällen. Wenn Sie 5 Ausfälle in 30 Tagen haben = MTBF 6 Tage. Ziel: Erhöhen durch Redundanz, besseres Testen, Postmortem-Action-Items.

Incident frequency

Anzahl der Incidents nach Wochen / Monaten. Beobachten Sie den Trend - Sie sollten einen Rückgang nach Ihren SRE-Initiativen sehen.

Incident-Tabelle

Die letzten 50 Incidents mit Spalten:

DOWN-Beginn (Timestamp)
Ende / aktiv (Timestamp oder "-> aktiv")
Dauer (HH:MM:SS)
Grund (HTTP 502, SSL expired, DNS timeout, keyword missing...)
Region-Consensus (bei Multi-Region: welche Regionen bestätigt haben)

Export

Die Schaltfläche "Export CSV" lädt die Incident-Tabelle für den Import in Excel / BI-Tool herunter. PDF SLA-Bericht siehe SLA-Berichte.