Historique incidents, MTTR, MTBF
Historique des incidents, MTTR, MTBF
3 min de lecture
Les statistiques répondent aux questions "à quelle fréquence cela tombe-t-il", "combien de temps avant que cela revienne", "quand avons-nous eu la pire semaine". Dans le détail du moniteur -> onglet Statistiques.
Métriques clés
Uptime %
Ratio du temps UP / temps total. Métrique classique. ePulz.io le calcule sur des fenêtres 24h / 7j / 30j / 90j / 365j.
MTTR (Mean Time To Recovery)
Temps moyen de la détection DOWN au retour UP. Si vous avez 5 incidents et que chacun a duré 8 minutes, MTTR = 8 min. Objectif : réduire par un meilleur alerting, auto-restart, rotations on-call.
MTBF (Mean Time Between Failures)
Temps moyen entre les pannes. Si vous avez 5 pannes sur 30 jours = MTBF 6 jours. Objectif : augmenter par redondance, meilleurs tests, action items post-mortem.
Fréquence des incidents
Nombre d'incidents par semaine / mois. Surveillez la tendance - vous devriez voir une baisse après vos initiatives SRE.
Tableau des incidents
Les 50 derniers incidents avec les colonnes :
- Début DOWN (timestamp)
- Fin / actif (timestamp ou "-> actif")
- Durée (HH:MM:SS)
- Raison (HTTP 502, SSL expiré, DNS timeout, keyword manquant...)
- Consensus de région (si multi-région : quelles régions ont confirmé)
Export
Le bouton "Export CSV" télécharge le tableau des incidents pour import dans Excel / outil BI. Rapport SLA PDF voir Rapports SLA.