Historia incydentów, MTTR, MTBF
Historia incydentów, MTTR, MTBF
3 min czytania
Statystyki odpowiadają na pytania "jak często nam pada", "jak długo to trwa, zanim wróci", "kiedy mieliśmy najgorszy tydzień". W szczegółach monitora → zakładka Statystyki.
Kluczowe metryki
Uptime %
Stosunek czasu UP / całkowity czas. Klasyczna metryka. ePulz.io liczy w oknach 24h / 7d / 30d / 90d / 365d.
MTTR (Mean Time To Recovery)
Średni czas od wykrycia DOWN do powrotu UP. Jeśli masz 5 incydentów i każdy trwał 8 minut, MTTR = 8 min. Cel: obniżać przez lepszy alerting, auto-restart, rotacje on-call.
MTBF (Mean Time Between Failures)
Średni czas między awariami. Jeśli masz 5 awarii w 30 dni = MTBF 6 dni. Cel: zwiększać przez redundancję, lepsze testowanie, postmortem action items.
Incident frequency
Liczba incydentów na tygodnie / miesiące. Obserwuj trend - powinieneś widzieć spadek po Twoich inicjatywach SRE.
Tabela incydentów
Ostatnie 50 incydentów z kolumnami:
- Początek DOWN (timestamp)
- Koniec / aktywny (timestamp lub "→ aktywny")
- Czas trwania (HH:MM:SS)
- Powód (HTTP 502, SSL expired, DNS timeout, keyword missing...)
- Region consensus (jeśli multi-region: które regiony potwierdziły)
Eksport
Przycisk "Export CSV" pobiera tabelę incydentów do importu do Excela / narzędzia BI. Raport SLA PDF zob. SLA reporty.