Справка и руководстваОтчёты и статистика › История инцидентов, MTTR, MTBF

История инцидентов, MTTR, MTBF

3 мин чтения · Отчёты и статистика

История инцидентов, MTTR, MTBF

3 мин чтения

Статистика отвечает на вопросы "как часто у нас падает", "как долго это длится, пока вернётся", "когда у нас была худшая неделя". В детали монитора → вкладка Статистика.

Ключевые метрики

Uptime %

Отношение времени UP / общее время. Классическая метрика. ePulz.io считает через 24h / 7d / 30d / 90d / 365d windows.

MTTR (Mean Time To Recovery)

Среднее время от обнаружения DOWN до возврата UP. Если у вас 5 инцидентов и каждый длился 8 минут, MTTR = 8 мин. Goal: снижать через лучший alerting, auto-restart, on-call ротации.

MTBF (Mean Time Between Failures)

Среднее время между сбоями. Если у вас 5 сбоев за 30 дней = MTBF 6 дней. Goal: повышать через redundancy, лучшее тестирование, postmortem action items.

Incident frequency

Количество инцидентов по неделям / месяцам. Следите за трендом - должны видеть снижение после ваших SRE-инициатив.

Таблица инцидентов

Последние 50 инцидентов со столбцами:

  • Начало DOWN (timestamp)
  • Конец / активный (timestamp или "→ активный")
  • Длительность (HH:MM:SS)
  • Причина (HTTP 502, SSL expired, DNS timeout, keyword missing...)
  • Region consensus (если multi-region: какие регионы подтвердили)

Экспорт

Кнопка "Export CSV" скачает таблицу инцидентов для импорта в Excel / BI инструмент. PDF SLA-отчёт см. SLA-отчёты.