Ajuda e guiasRelatórios e estatísticas › Histórico incidentes, MTTR, MTBF

Histórico incidentes, MTTR, MTBF

3 min de leitura · Relatórios e estatísticas

Histórico de incidentes, MTTR, MTBF

3 min de leitura

As estatísticas respondem às perguntas "com que frequência caímos", "quanto tempo leva para voltar", "quando tivemos a pior semana". No detalhe do monitor -> aba Estatísticas.

Métricas chave

Uptime %

Proporção de tempo UP / tempo total. A métrica clássica. O ePulz.io calcula em janelas de 24h / 7d / 30d / 90d / 365d.

MTTR (Mean Time To Recovery)

Tempo médio desde a detecção DOWN até o retorno UP. Se você tem 5 incidentes e cada um durou 8 minutos, MTTR = 8 min. Objetivo: reduzir através de melhor alerting, auto-restart, rotações de on-call.

MTBF (Mean Time Between Failures)

Tempo médio entre falhas. Se você tem 5 falhas em 30 dias = MTBF de 6 dias. Objetivo: aumentar através de redundância, testes melhores, action items do postmortem.

Incident frequency

Número de incidentes por semanas / meses. Acompanhe a tendência - você deveria ver uma queda após as suas iniciativas de SRE.

Tabela de incidentes

Os últimos 50 incidentes com colunas:

  • Início DOWN (timestamp)
  • Fim / ativo (timestamp ou "-> ativo")
  • Duração (HH:MM:SS)
  • Motivo (HTTP 502, SSL expirado, DNS timeout, keyword ausente...)
  • Consenso de região (se multi-região: que regiões confirmaram)

Exportação

O botão "Export CSV" baixa a tabela de incidentes para importação no Excel / ferramenta BI. Relatório SLA PDF ver relatórios SLA.