Historie incidentů, MTTR, MTBF
Historie incidentů, MTTR, MTBF
3 min čtení
Statistiky odpovídají na otázky "jak často nám padá", "jak dlouho to trvá než se to vrátí", "kdy jsme měli nejhorší týden". V detailu monitoru → záložka Statistiky.
Klíčové metriky
Uptime %
Poměr času UP / celkový čas. Klasická metrika. ePulz.io počítá přes 24h / 7d / 30d / 90d / 365d windows.
MTTR (Mean Time To Recovery)
Průměrný čas od detekce DOWN po návrat UP. Pokud máte 5 incidentů a každý trval 8 minut, MTTR = 8 min. Cíl: snižovat přes lepší alerting, auto-restart, on-call rotace.
MTBF (Mean Time Between Failures)
Průměrný čas mezi výpadky. Pokud máte 5 výpadků za 30 dní = MTBF 6 dní. Cíl: zvyšovat přes redundanci, lepší testování, postmortem action items.
Incident frequency
Počet incidentů po týdnech / měsících. Sledujte trend - měli byste vidět pokles po vašich SRE iniciativách.
Tabulka incidentů
Posledních 50 incidentů se sloupci:
- Začátek DOWN (timestamp)
- Konec / aktivní (timestamp nebo "→ aktivní")
- Trvání (HH:MM:SS)
- Důvod (HTTP 502, SSL expired, DNS timeout, keyword missing...)
- Region consensus (pokud multi-region: které regiony potvrdily)
Export
Tlačítko "Export CSV" stáhne tabulku incidentů pro import do Excelu / BI nástroje. PDF SLA report viz SLA reporty.