Історія інцидентів, MTTR, MTBF
Історія інцидентів, MTTR, MTBF
3 хв читання
Статистика відповідає на питання "як часто нам падає", "як довго триває поки повернеться", "коли ми мали найгірший тиждень". У деталях монітора → вкладка Статистика.
Ключові метрики
Uptime %
Співвідношення часу UP / загальний час. Класична метрика. ePulz.io рахує через 24h / 7d / 30d / 90d / 365d вікна.
MTTR (Mean Time To Recovery)
Середній час від виявлення DOWN до повернення UP. Якщо маєте 5 інцидентів і кожен тривав 8 хвилин, MTTR = 8 хв. Goal: знижувати через кращий alerting, auto-restart, on-call ротації.
MTBF (Mean Time Between Failures)
Середній час між збоями. Якщо маєте 5 збоїв за 30 днів = MTBF 6 днів. Goal: підвищувати через резервування, краще тестування, postmortem action items.
Incident frequency
Кількість інцидентів по тижнях / місяцях. Стежте за трендом - маєте бачити спад після ваших SRE ініціатив.
Таблиця інцидентів
Останніх 50 інцидентів зі стовпцями:
- Початок DOWN (timestamp)
- Кінець / активний (timestamp або "→ активний")
- Тривалість (HH:MM:SS)
- Причина (HTTP 502, SSL expired, DNS timeout, keyword missing...)
- Region consensus (якщо мультирегіональний: які регіони підтвердили)
Експорт
Кнопка "Export CSV" завантажить таблицю інцидентів для імпорту до Excel / BI інструменту. PDF SLA report див. SLA звіти.