Cronologia degli incidenti, MTTR, MTBF

3 min di lettura

Le statistiche rispondono alle domande "quanto spesso ci cade", "quanto tempo serve perché torni su", "quando abbiamo avuto la settimana peggiore". Nel dettaglio del monitor -> scheda Statistiche.

Metriche chiave

Uptime %

Rapporto tra tempo UP e tempo totale. Metrica classica. ePulz.io calcola su finestre di 24h / 7g / 30g / 90g / 365g.

MTTR (Mean Time To Recovery)

Tempo medio dal rilevamento del DOWN al ritorno UP. Se hai 5 incidenti e ciascuno è durato 8 minuti, MTTR = 8 min. Obiettivo: ridurlo con un migliore alerting, auto-restart, rotazioni on-call.

MTBF (Mean Time Between Failures)

Tempo medio tra i guasti. Se hai 5 guasti in 30 giorni = MTBF 6 giorni. Obiettivo: aumentarlo con ridondanza, test migliori, action item post-mortem.

Incident frequency

Numero di incidenti per settimana / mese. Monitora il trend - dovresti vedere un calo dopo le tue iniziative SRE.

Tabella degli incidenti

Ultimi 50 incidenti con colonne:

Inizio DOWN (timestamp)
Fine / attivo (timestamp oppure "-> attivo")
Durata (HH:MM:SS)
Motivo (HTTP 502, SSL expired, DNS timeout, keyword missing...)
Consensus regionale (se multi-region: quali regioni hanno confermato)

Export

Il pulsante "Export CSV" scarica la tabella degli incidenti per l'import in Excel / strumento BI. Per il report PDF SLA vedi Report SLA.