Best practices de status page: cómo comunicar caídas

En resumen: Una página de estado pública es el lugar donde van los clientes cuando algo no les funciona. Una buena status page reduce tickets de soporte, construye confianza y salva a tu equipo de docenas de preguntas repetidas durante un incidente.

En resumen: Una página de estado pública es el lugar donde van los clientes cuando algo no les funciona. Una buena status page reduce tickets de soporte, construye confianza y salva a tu equipo de docenas de preguntas repetidas durante un incidente.

Qué debe tener una buena status page

Estado actual de cada servicio clave. No solo "todo OK" - dividido por componentes (API, web, dashboard, emailing, payment processing).
Historial de incidentes de los últimos 90 días. Sin intentar ocultarlos. Historia honesta construye confianza.
Métrica de uptime (típicamente por 30 días) para cada componente. Porcentaje transparente.
Mantenimiento planificado. Banner con fecha y descripción de qué será inaccesible.
Incidente activo con timeline post-update. Investigating → Identified → Monitoring → Resolved.
Formulario subscribe - los clientes reciben email al cambiar el estado, no tienen que verificar repetidamente.

Jerarquía clara de componentes

En vez de un solo registro "monitor" divide en componentes que tienen sentido desde la perspectiva del cliente:

Web App - frontend (los visitantes lo usan)
API - backend para integraciones programáticas
Auth / Login - inicio de sesión
Email delivery - emails transaccionales
Background jobs - sync, facturación, exports
Status page - meta en sí - incluso esta puede caer (por eso debería estar alojada en infraestructura diferente al producto)

Comunicación de incidente: anatomía de buen update

Durante una caída real sigue estas fases:

Investigating - "Identificamos un problema con [componente]. El equipo investiga la causa." (dentro de 5 min de la detección)
Identified - "La causa es [brevemente]. Trabajamos en el fix. ETA [tiempo]." (cuando sabes qué lo causa)
Monitoring - "Desplegamos el fix. Monitoreamos si el problema no se repite." (tras desplegar la solución)
Resolved - "El incidente está resuelto. Duración X minutos. Postmortem sigue." (recuperación confirmada)

Cada fase recibe timestamp y update. Tras el incidente publica un post-mortem (root cause, timeline, qué hacemos para que no se repita).

Regla: Nunca uses frases vagas como "experiencing some issues". Los clientes quieren concreción: "Login falla para ~30% de intentos. API funciona normal. Web disponible solo en modo read-only."

Hosting: principio de infraestructura independiente

La status page debe correr en infraestructura diferente al servicio monitoreado. Si tu región AWS cae, tu status page alojada en la misma región AWS también cae - exactamente cuando los clientes más la necesitan.

Soluciones prácticas:

Hosting via SaaS externo (StatusPage.io, ePulz.io, Better Stack, Statuspage)
Propia página estática en CDN (Cloudflare Pages, Netlify) con endpoint API en otro sitio
Worst case: página estática mínima en Cloudflare con texto actualizado manualmente

Subscribers: e-mail / RSS / webhook

Los clientes no quieren refrescar repetidamente la status page. Una buena página soporta:

Email subscribers - en ePulz.io disponible para usuarios logueados con plan pagado (recolectamos suscripciones solo de cuentas verificadas, no de visitantes anónimos)
RSS / Atom feed - forma tradicional para tech-savvy users
Webhook - para equipos que quieren integrar en su Slack o PagerDuty

Anti-pattern: ocultar problemas

La tentación es grande de marcar una caída como "degraded" en lugar de "down", o no mostrarla en absoluto. Eso es cortoplacista:

Los clientes lo notarán de todas formas (monitoring propio, flow de support ticket, redes sociales)
Pérdida de confianza cuando descubren que el status dice "OK" durante caída evidente
Ninguna imagen del trend uptime real para toma de decisiones interna

Mejor estrategia: transparencia radical. GitLab, Cloudflare, Stripe publican todos post-mortems detallados incluso por errores embarazosos. La comunidad lo aprecia.

SEO y brand

La status page debería:

Estar en propio subdominio (status.example.com) o prefijo URL
Tener propio branding (logo, colores) - el cliente debe saber que está en tu página
Ser indexada en Google (mejor visibilidad en búsqueda "[marca] down")
Linkeada desde la página principal (footer "Estado del servicio")

Conclusión

La status page no es decoración. Es herramienta operativa que reduce el coste de soporte durante un incidente y construye confianza a largo plazo. Inversión de 1-2 horas en configuración correcta se devuelve en la primera caída mayor.

Crea una status page en 5 minutos

ePulz.io status pages con propio branding, email subscribers y incident timeline. 7 días gratis.

Probar ePulz.io →