Storico incidenti, MTTR, MTBF
Cronologia degli incidenti, MTTR, MTBF
3 min di lettura
Le statistiche rispondono alle domande "quanto spesso ci cade", "quanto tempo serve perché torni su", "quando abbiamo avuto la settimana peggiore". Nel dettaglio del monitor -> scheda Statistiche.
Metriche chiave
Uptime %
Rapporto tra tempo UP e tempo totale. Metrica classica. ePulz.io calcola su finestre di 24h / 7g / 30g / 90g / 365g.
MTTR (Mean Time To Recovery)
Tempo medio dal rilevamento del DOWN al ritorno UP. Se hai 5 incidenti e ciascuno è durato 8 minuti, MTTR = 8 min. Obiettivo: ridurlo con un migliore alerting, auto-restart, rotazioni on-call.
MTBF (Mean Time Between Failures)
Tempo medio tra i guasti. Se hai 5 guasti in 30 giorni = MTBF 6 giorni. Obiettivo: aumentarlo con ridondanza, test migliori, action item post-mortem.
Incident frequency
Numero di incidenti per settimana / mese. Monitora il trend - dovresti vedere un calo dopo le tue iniziative SRE.
Tabella degli incidenti
Ultimi 50 incidenti con colonne:
- Inizio DOWN (timestamp)
- Fine / attivo (timestamp oppure "-> attivo")
- Durata (HH:MM:SS)
- Motivo (HTTP 502, SSL expired, DNS timeout, keyword missing...)
- Consensus regionale (se multi-region: quali regioni hanno confermato)
Export
Il pulsante "Export CSV" scarica la tabella degli incidenti per l'import in Excel / strumento BI. Per il report PDF SLA vedi Report SLA.