Aide et guides › Rapports et statistiques › Historique incidents, MTTR, MTBF

Historique incidents, MTTR, MTBF

3 min de lecture · Rapports et statistiques

Historique des incidents, MTTR, MTBF

3 min de lecture

Les statistiques répondent aux questions "à quelle fréquence cela tombe-t-il", "combien de temps avant que cela revienne", "quand avons-nous eu la pire semaine". Dans le détail du moniteur -> onglet Statistiques.

Métriques clés

Uptime %

Ratio du temps UP / temps total. Métrique classique. ePulz.io le calcule sur des fenêtres 24h / 7j / 30j / 90j / 365j.

MTTR (Mean Time To Recovery)

Temps moyen de la détection DOWN au retour UP. Si vous avez 5 incidents et que chacun a duré 8 minutes, MTTR = 8 min. Objectif : réduire par un meilleur alerting, auto-restart, rotations on-call.

MTBF (Mean Time Between Failures)

Temps moyen entre les pannes. Si vous avez 5 pannes sur 30 jours = MTBF 6 jours. Objectif : augmenter par redondance, meilleurs tests, action items post-mortem.

Fréquence des incidents

Nombre d'incidents par semaine / mois. Surveillez la tendance - vous devriez voir une baisse après vos initiatives SRE.

Tableau des incidents

Les 50 derniers incidents avec les colonnes :

Début DOWN (timestamp)
Fin / actif (timestamp ou "-> actif")
Durée (HH:MM:SS)
Raison (HTTP 502, SSL expiré, DNS timeout, keyword manquant...)
Consensus de région (si multi-région : quelles régions ont confirmé)

Export

Le bouton "Export CSV" télécharge le tableau des incidents pour import dans Excel / outil BI. Rapport SLA PDF voir Rapports SLA.

← Précédent

Rapports SLA (mensuels / trimestriels)

Percentiles response time (P50/P90/P99)