Histórico incidentes, MTTR, MTBF
Historial de incidentes, MTTR, MTBF
3 min de lectura
Las estadísticas responden a preguntas como "con qué frecuencia nos cae", "cuánto tarda en recuperarse", "cuándo tuvimos la peor semana". En el detalle del monitor → pestaña Estadísticas.
Métricas clave
Uptime %
Proporción de tiempo UP / tiempo total. Métrica clásica. ePulz.io la calcula en ventanas de 24h / 7d / 30d / 90d / 365d.
MTTR (Mean Time To Recovery)
Tiempo medio desde la detección DOWN hasta el regreso a UP. Si tiene 5 incidentes y cada uno duró 8 minutos, MTTR = 8 min. Objetivo: reducirlo mediante mejor alerting, auto-restart y rotaciones on-call.
MTBF (Mean Time Between Failures)
Tiempo medio entre caídas. Si tiene 5 caídas en 30 días = MTBF 6 días. Objetivo: aumentarlo mediante redundancia, mejor testing y action items de postmortem.
Frecuencia de incidentes
Número de incidentes por semanas / meses. Observe la tendencia: debería ver una disminución tras sus iniciativas SRE.
Tabla de incidentes
Los últimos 50 incidentes con columnas:
- Inicio DOWN (timestamp)
- Fin / activo (timestamp o "→ activo")
- Duración (HH:MM:SS)
- Motivo (HTTP 502, SSL expired, DNS timeout, keyword missing...)
- Consenso de regiones (si es multi-región: qué regiones confirmaron)
Exportación
El botón "Exportar CSV" descarga la tabla de incidentes para importar a Excel o a una herramienta de BI. Informe PDF de SLA, véase Informes SLA.