DevZen Solutions
Filial de Nümia Group
Documento   Incident response playbook
Versión   v1.0 · interno
Audiencia   Equipo DevZen
Incident response playbook · DevZen Solutions

Cuando algo falla en producción, esto es lo que hacemos.

Este playbook define el protocolo operacional de DevZen ante incidentes en sistemas cliente en producción. Aplica durante la garantía técnica de 90 días (MSA cláusula 7) y durante cualquier contrato de mantenimiento o renta SaaS vigente. Los pasos no son sugerencia — son la mínima ejecución comprometida con cada cliente.

Cuando aplique tratamiento de datos personales, las obligaciones de notificación de incidentes de seguridad de la cláusula 9 del MSA y el DPA · Anexo B (notificación 72 horas conforme LFPDPPP) son imperativas y prevalecen sobre cualquier disposición de este playbook.

Lo que entregamos hoy es lo que usaríamos en producción mañana — y respondemos a las 3 a.m. como si fuera nuestro propio sistema. Anchor cultural · § garantía técnica
Qué vas a encontrar
  • § 1 — Severidades. SEV1–SEV4 con SLA de respuesta y mitigación.
  • § 2 — Los primeros 15 minutos. Timeline T+0 a T+15 para SEV1.
  • § 3 — Cómo comunicamos. Reglas duras + 4 templates literales al cliente.
  • § 4 — Cómo mitigamos. Árbol de decisión textual: código DevZen · servicio externo · cliente.
  • § 5 — Postmortem template. Entrega al cliente en 48 horas máximo.
  • § 6 — Escalación. Niveles 1–3 con contactos de emergencia.
  • § 7 — Cierre y mejora continua. Compromiso de revisión trimestral.
DevZen Solutions · Filial de Nümia Group LTD · kike@numia.group · +52 981 123-6415 · devzen.numia.group 01 / 07 · IR Playbook v1.0
DevZen Solutions
Filial de Nümia Group
Doc   IR Playbook · v1.0
Sección   § 1 Severidades
Página   02 / 07
§ 1

Severidades · clasificación de incidentes.

Cuatro niveles. La severidad la determina DevZen al recibir el reporte, no el cliente. Si hay desacuerdo, escala a Kike — no se negocia el SLA por teléfono.

SeveridadDefiniciónEjemplo típicoSLA respuestaSLA mitigación
SEV1
Crítico
Sistema completamente caído · datos en riesgo · operación del cliente paralizada. Base de datos no responde · auth caído · pago no procesa · pérdida de datos en curso. 15 min hábil
30 min fuera de hábiles
4h hábiles
8h fuera de hábiles
SEV2
Alto
Funcionalidad mayor degradada · workaround posible pero costoso. Reportes no generan · módulo cobranza intermitente · endpoint externo con tasa de error elevada. 1h hábil 24h hábiles
SEV3
Medio
Funcionalidad menor afectada · sin impacto en operación crítica. UI bug · export PDF mal formateado · campo no se valida correctamente. 4h hábiles 5 días hábiles
SEV4
Bajo
Cosmético · mejora · deuda técnica. Typo en label · color inconsistente · padding desalineado. 24h hábiles Siguiente sprint
Regla dura · clasificación

La severidad la asigna DevZen al recibir el reporte. Si el cliente reporta como SEV1 lo que DevZen considera SEV2, se explica el criterio con evidencia técnica y se acuerda en máx 30 min. Si el cliente insiste, se atiende al SLA superior por respeto comercial — pero se documenta la decisión y se revisa en postmortem.

Incidentes de seguridad · LFPDPPP

Cualquier SEV1 o SEV2 que involucre acceso no autorizado, pérdida o exposición de datos personales activa la cláusula 9 del MSA y la cláusula 8 del DPA: notificación al Responsable (Cliente) dentro de 72 horas con naturaleza · datos afectados · medidas tomadas · medidas previstas. Esto es obligación legal, no opcional.

DevZen Solutions · Filial de Nümia Group LTD · kike@numia.group · +52 981 123-6415 · devzen.numia.group 02 / 07 · IR Playbook v1.0
DevZen Solutions
Filial de Nümia Group
Doc   IR Playbook · v1.0
Sección   § 2 Primeros 15 min
Página   03 / 07
§ 2

Los primeros 15 minutos.

Protocolo de respuesta para SEV1. Los primeros 15 minutos definen si el incidente se controla o se cascada. Cada paso es obligatorio y se ejecuta en paralelo cuando es posible.

T+0 min
Reporte entra.

Vía email a kike@numia.group, WhatsApp, Telegram, o alerta automatizada del monitoreo. Todo reporte se registra con timestamp exacto. La fuente original del reporte no determina la severidad — el diagnóstico inicial sí.

T+5 min
Acknowledgment al cliente.

Mensaje canónico: "Recibido. Estamos diagnosticando. Próxima actualización en 15 min." Sin promesa prematura de fix · sin culpar a terceros sin evidencia · sin lenguaje técnico que el PO no pueda comunicar a su equipo.

T+5 min
War room interno.

En paralelo al ack: levantar canal Slack/Discord #{PROYECTO}-incident-{FECHA}. Invocar a Kike + Eduardo + freelancer asignado al proyecto si aplica. Tomar notas en vivo · grabar timeline.

T+10 min
Diagnóstico inicial.

Revisar logs centralizados · APM · status pages de servicios externos (BBVA · SAT · Supabase · Cloudflare · etc.). Determinar capa afectada (frontend · API · DB · integración externa · datos). Confirmar severidad real vs reportada.

T+15 min
Update al cliente con diagnóstico.

Mensaje literal: "Update: identificamos {CAUSA}. Mitigación en curso: {MITIGACIÓN}. Próxima actualización en {N} minutos." Si todavía no hay causa identificada, se dice así explícito — nunca inventar diagnóstico para tranquilizar.

Riesgo identificado · Mitigación · Owner. Estructura literal de cada update durante incidente
DevZen Solutions · Filial de Nümia Group LTD · kike@numia.group · +52 981 123-6415 · devzen.numia.group 03 / 07 · IR Playbook v1.0
DevZen Solutions
Filial de Nümia Group
Doc   IR Playbook · v1.0
Sección   § 3 Comunicación
Página   04 / 07
§ 3

Cómo comunicamos.

Frecuencia mínima de updates

SEV1: cada 30 min · SEV2: cada 2h · SEV3: cada 24h · SEV4: al fix.

Canales

Primario: status page actualizada en vivo. Secundario: email a PO/Sponsor + WhatsApp/Telegram a contactos críticos del proyecto.

No hacer

Prometer fechas de fix antes del diagnóstico · culpar a terceros sin evidencia · usar jerga técnica que el PO no pueda repetir a su equipo.

Sí hacer

Usar "Riesgo identificado · Mitigación · Owner" en cada update · explicitar lo que ya se descartó · fechas tentativas solo con evidencia.

Templates literales · comunicación cliente

Copia y reemplaza placeholders. No improvises bajo presión — usa estos 4 templates como base.

01 · Acknowledgment inicial · T+5 Sr./Sra. {APELLIDO}, recibimos el reporte de {SINTOMA}. Estamos diagnosticando. Próxima actualización en 15 min.
02 · Update durante diagnóstico · cada 30 min Update {HORA}: identificamos {CAUSA_PROBABLE}. Probando mitigación: {MITIGACIÓN}. Próximo update en {N} min.
03 · Confirmación de mitigación · al cierre del incidente Update {HORA}: mitigación aplicada. Sistema operando con normalidad desde {HORA_RECUPERACIÓN}. Monitoreo intensivo durante 4h adicionales. Postmortem formal en 48h.
04 · Heads-up del postmortem · T+12h aprox Sr./Sra. {APELLIDO}, en 48h recibirá el postmortem formal del incidente del {FECHA}. Incluirá causa raíz · timeline detallado · medidas para evitar recurrencia. Si tiene preguntas antes, responda este correo.
DevZen Solutions · Filial de Nümia Group LTD · kike@numia.group · +52 981 123-6415 · devzen.numia.group 04 / 07 · IR Playbook v1.0
DevZen Solutions
Filial de Nümia Group
Doc   IR Playbook · v1.0
Sección   § 4 Mitigación
Página   05 / 07
§ 4

Cómo mitigamos.

Árbol de decisión textual. Se ejecuta en el war room interno apenas hay diagnóstico inicial. No se aplica fix sin pasar por las preguntas.

→ ¿El incidente es del código DevZen?
· ¿Hotfix viable en menos de 2 horas?
· Desplegar hotfix con feature flag si aplica · validar en producción · 30 min de monitoreo intensivo · update al cliente.
NO · Rollback a versión anterior estable · postmortem antes de re-release · proponer fix definitivo en sprint siguiente.
NO · ¿Es un servicio externo (BBVA, SAT, Cloudflare, Supabase, etc.)?
· Levantar ticket al proveedor · documentar tiempo de respuesta · activar workaround temporal (queue · retry · cache · ruta alternativa).
NO · ¿Es del cliente (config, datos, uso fuera de spec documentado)?
· Comunicar diagnóstico al cliente con evidencia técnica · proponer fix conjunto · documentar para evitar repetición.
NO · Escalar a Nivel 2 (Kike) · revisar suposiciones del diagnóstico inicial.
Recomendamos rollback porque hotfix requiere 4h y el riesgo de cascada es alto. Re-release con fix completo en sprint siguiente. Ejemplo · frase firma aplicada a decisión de mitigación
Regla dura · cuándo NO desplegar fix

Si el incidente ocurre a menos de 2 horas del cierre del día hábil y el fix no es trivial, se prefiere rollback. Nunca se hace deploy nocturno bajo presión salvo SEV1 con datos en riesgo y autorización explícita de Kike.

DevZen Solutions · Filial de Nümia Group LTD · kike@numia.group · +52 981 123-6415 · devzen.numia.group 05 / 07 · IR Playbook v1.0
DevZen Solutions
Filial de Nümia Group
Doc   IR Playbook · v1.0
Sección   § 5 Postmortem
Página   06 / 07
§ 5

Postmortem · template.

Se entrega al cliente en máximo 48 horas después de la resolución de cualquier SEV1. SEV2 genera postmortem interno; se comparte al cliente bajo petición.

Resumen ejecutivo{FECHA} · SEV{N} · duración {DURACIÓN_TOTAL} · impacto {IMPACTO_NEGOCIO}. Una línea, sin tecnicismos.
Timeline detalladoT+0 detección · T+{X} diagnóstico · T+{Y} mitigación · T+{Z} recuperación · T+{W} monitoreo cerrado. Anexar logs si aplica.
Causa raízFrase firma: "Recomendamos {X} porque {Y}", aplicada retrospectivamente a la decisión técnica que produjo el incidente.
Lo que funcionó2-3 puntos. Ej: detección automática del monitoreo en 30 segundos · acknowledgment al cliente en 4 min · rollback ejecutado en 12 min.
Lo que no funcionó2-3 puntos. Honestidad sin maquillaje. Ej: el monitoreo no alertó del síntoma específico · faltó runbook para este escenario · update al cliente se atrasó 8 min por falta de plantilla.
Acciones correctivasCon owner + fecha objetivo. Mínimo 1 acción técnica + 1 acción de proceso. Ej: agregar alerta específica (Kike · próximo sprint) · actualizar runbook del proyecto (freelancer · 5 días).
Compromiso al clienteCómo evitamos recurrencia. Si aplica, ajuste en el Project Runbook del proyecto + reflejo en Sprint Review template del cliente.
Anchor cultural

El postmortem es para aprender, no para culpar. Se publica internamente sin nombres de personas — solo causas técnicas. El cliente recibe la versión cliente-facing con compromisos accionables.

DevZen Solutions · Filial de Nümia Group LTD · kike@numia.group · +52 981 123-6415 · devzen.numia.group 06 / 07 · IR Playbook v1.0
DevZen Solutions
Filial de Nümia Group
Doc   IR Playbook · v1.0
Sección   § 6 + § 7
Página   07 / 07
§ 6

Cuándo escalamos.

Nivel 1 · Freelancer asignado

Primera línea durante horario hábil del proyecto. Responde acknowledgments, ejecuta diagnóstico inicial. Escala al Nivel 2 ante SEV1 confirmado o si SEV2 excede SLA de mitigación.

Nivel 2 · Kike Vázquez

SEV1 siempre · SEV2 si el freelancer no resuelve en SLA. Toda comunicación al PO/Sponsor del cliente pasa por aquí. Decisión final de rollback vs hotfix.

Nivel 3 · Eduardo Nepote

Temas comerciales o contractuales derivados del incidente. Se invoca si el cliente amenaza con cancelación, cobro de penalización, o si el postmortem implica revisión del SOW o del MSA.

Contactos de emergencia
Kike Vázquezkike@numia.group · +52 981 123-6415 · WhatsApp 24/7 durante SEV1
Eduardo NepoteVía Kike · contacto directo si pre-establecido en SOW
Suplente de guardia{SUPLENTE_GUARDIA} · TBD por proyecto

§ 7

Cierre y mejora continua.

  • · Todo SEV1 genera postmortem público al cliente en 48h.
  • · Todo SEV2 genera postmortem interno (compartido bajo petición).
  • · Acciones correctivas se documentan en el Project Runbook del proyecto afectado.
  • · Cada trimestre se revisan todos los postmortems · se identifican patrones · se actualiza este playbook.
Kike Vázquez
CEO / CTO · DevZen Solutions
Adopción: {FECHA_ADOPCION}
Eduardo Nepote
COO / CFO · DevZen Solutions
Adopción: {FECHA_ADOPCION}
Disclaimer Template DevZen v1.0 · Documento interno operativo · Los SLAs comprometidos al cliente se rigen por el MSA cláusula 7 (garantía 90 días) y por el SOW correspondiente al proyecto. Este playbook define la mínima ejecución interna; cualquier SLA más estricto pactado contractualmente prevalece.