История инцидентов, MTTR, MTBF
История инцидентов, MTTR, MTBF
3 мин чтения
Статистика отвечает на вопросы "как часто у нас падает", "как долго это длится, пока вернётся", "когда у нас была худшая неделя". В детали монитора → вкладка Статистика.
Ключевые метрики
Uptime %
Отношение времени UP / общее время. Классическая метрика. ePulz.io считает через 24h / 7d / 30d / 90d / 365d windows.
MTTR (Mean Time To Recovery)
Среднее время от обнаружения DOWN до возврата UP. Если у вас 5 инцидентов и каждый длился 8 минут, MTTR = 8 мин. Goal: снижать через лучший alerting, auto-restart, on-call ротации.
MTBF (Mean Time Between Failures)
Среднее время между сбоями. Если у вас 5 сбоев за 30 дней = MTBF 6 дней. Goal: повышать через redundancy, лучшее тестирование, postmortem action items.
Incident frequency
Количество инцидентов по неделям / месяцам. Следите за трендом - должны видеть снижение после ваших SRE-инициатив.
Таблица инцидентов
Последние 50 инцидентов со столбцами:
- Начало DOWN (timestamp)
- Конец / активный (timestamp или "→ активный")
- Длительность (HH:MM:SS)
- Причина (HTTP 502, SSL expired, DNS timeout, keyword missing...)
- Region consensus (если multi-region: какие регионы подтвердили)
Экспорт
Кнопка "Export CSV" скачает таблицу инцидентов для импорта в Excel / BI инструмент. PDF SLA-отчёт см. SLA-отчёты.