Histórico incidentes, MTTR, MTBF
Histórico de incidentes, MTTR, MTBF
3 min de leitura
As estatísticas respondem às perguntas "com que frequência caímos", "quanto tempo leva para voltar", "quando tivemos a pior semana". No detalhe do monitor -> aba Estatísticas.
Métricas chave
Uptime %
Proporção de tempo UP / tempo total. A métrica clássica. O ePulz.io calcula em janelas de 24h / 7d / 30d / 90d / 365d.
MTTR (Mean Time To Recovery)
Tempo médio desde a detecção DOWN até o retorno UP. Se você tem 5 incidentes e cada um durou 8 minutos, MTTR = 8 min. Objetivo: reduzir através de melhor alerting, auto-restart, rotações de on-call.
MTBF (Mean Time Between Failures)
Tempo médio entre falhas. Se você tem 5 falhas em 30 dias = MTBF de 6 dias. Objetivo: aumentar através de redundância, testes melhores, action items do postmortem.
Incident frequency
Número de incidentes por semanas / meses. Acompanhe a tendência - você deveria ver uma queda após as suas iniciativas de SRE.
Tabela de incidentes
Os últimos 50 incidentes com colunas:
- Início DOWN (timestamp)
- Fim / ativo (timestamp ou "-> ativo")
- Duração (HH:MM:SS)
- Motivo (HTTP 502, SSL expirado, DNS timeout, keyword ausente...)
- Consenso de região (se multi-região: que regiões confirmaram)
Exportação
O botão "Export CSV" baixa a tabela de incidentes para importação no Excel / ferramenta BI. Relatório SLA PDF ver relatórios SLA.