DevZen Solutions

Filial de Nümia Group

Documento Incident response playbook

Versión v1.0 · interno

Audiencia Equipo DevZen

Incident response playbook · DevZen Solutions

Cuando algo falla en producción, esto es lo que hacemos.

Este playbook define el protocolo operacional de DevZen ante incidentes en sistemas cliente en producción. Aplica durante la garantía técnica de 90 días (MSA cláusula 7) y durante cualquier contrato de mantenimiento o renta SaaS vigente. Los pasos no son sugerencia — son la mínima ejecución comprometida con cada cliente.

Cuando aplique tratamiento de datos personales, las obligaciones de notificación de incidentes de seguridad de la cláusula 9 del MSA y el DPA · Anexo B (notificación 72 horas conforme LFPDPPP) son imperativas y prevalecen sobre cualquier disposición de este playbook.

Lo que entregamos hoy es lo que usaríamos en producción mañana — y respondemos a las 3 a.m. como si fuera nuestro propio sistema. Anchor cultural · § garantía técnica

Qué vas a encontrar

§ 1 — Severidades. SEV1–SEV4 con SLA de respuesta y mitigación.
§ 2 — Los primeros 15 minutos. Timeline T+0 a T+15 para SEV1.
§ 3 — Cómo comunicamos. Reglas duras + 4 templates literales al cliente.
§ 4 — Cómo mitigamos. Árbol de decisión textual: código DevZen · servicio externo · cliente.
§ 5 — Postmortem template. Entrega al cliente en 48 horas máximo.
§ 6 — Escalación. Niveles 1–3 con contactos de emergencia.
§ 7 — Cierre y mejora continua. Compromiso de revisión trimestral.

DevZen Solutions

Filial de Nümia Group

Doc IR Playbook · v1.0

Sección § 1 Severidades

Página 02 / 07

§ 1

Severidades · clasificación de incidentes.

Cuatro niveles. La severidad la determina DevZen al recibir el reporte, no el cliente. Si hay desacuerdo, escala a Kike — no se negocia el SLA por teléfono.

Severidad	Definición	Ejemplo típico	SLA respuesta	SLA mitigación
SEV1 Crítico	Sistema completamente caído · datos en riesgo · operación del cliente paralizada.	Base de datos no responde · auth caído · pago no procesa · pérdida de datos en curso.	15 min hábil 30 min fuera de hábiles	4h hábiles 8h fuera de hábiles
SEV2 Alto	Funcionalidad mayor degradada · workaround posible pero costoso.	Reportes no generan · módulo cobranza intermitente · endpoint externo con tasa de error elevada.	1h hábil	24h hábiles
SEV3 Medio	Funcionalidad menor afectada · sin impacto en operación crítica.	UI bug · export PDF mal formateado · campo no se valida correctamente.	4h hábiles	5 días hábiles
SEV4 Bajo	Cosmético · mejora · deuda técnica.	Typo en label · color inconsistente · padding desalineado.	24h hábiles	Siguiente sprint

Regla dura · clasificación

La severidad la asigna DevZen al recibir el reporte. Si el cliente reporta como SEV1 lo que DevZen considera SEV2, se explica el criterio con evidencia técnica y se acuerda en máx 30 min. Si el cliente insiste, se atiende al SLA superior por respeto comercial — pero se documenta la decisión y se revisa en postmortem.

Incidentes de seguridad · LFPDPPP

Cualquier SEV1 o SEV2 que involucre acceso no autorizado, pérdida o exposición de datos personales activa la cláusula 9 del MSA y la cláusula 8 del DPA: notificación al Responsable (Cliente) dentro de 72 horas con naturaleza · datos afectados · medidas tomadas · medidas previstas. Esto es obligación legal, no opcional.

DevZen Solutions

Filial de Nümia Group

Doc IR Playbook · v1.0

Sección § 2 Primeros 15 min

Página 03 / 07

§ 2

Los primeros 15 minutos.

Protocolo de respuesta para SEV1. Los primeros 15 minutos definen si el incidente se controla o se cascada. Cada paso es obligatorio y se ejecuta en paralelo cuando es posible.

T+0 min

Reporte entra.

Vía email a kike@numia.group, WhatsApp, Telegram, o alerta automatizada del monitoreo. Todo reporte se registra con timestamp exacto. La fuente original del reporte no determina la severidad — el diagnóstico inicial sí.

T+5 min

Acknowledgment al cliente.

Mensaje canónico: "Recibido. Estamos diagnosticando. Próxima actualización en 15 min." Sin promesa prematura de fix · sin culpar a terceros sin evidencia · sin lenguaje técnico que el PO no pueda comunicar a su equipo.

T+5 min

War room interno.

En paralelo al ack: levantar canal Slack/Discord #{PROYECTO}-incident-{FECHA}. Invocar a Kike + Eduardo + freelancer asignado al proyecto si aplica. Tomar notas en vivo · grabar timeline.

T+10 min

Diagnóstico inicial.

Revisar logs centralizados · APM · status pages de servicios externos (BBVA · SAT · Supabase · Cloudflare · etc.). Determinar capa afectada (frontend · API · DB · integración externa · datos). Confirmar severidad real vs reportada.

T+15 min

Update al cliente con diagnóstico.

Mensaje literal: "Update: identificamos {CAUSA}. Mitigación en curso: {MITIGACIÓN}. Próxima actualización en {N} minutos." Si todavía no hay causa identificada, se dice así explícito — nunca inventar diagnóstico para tranquilizar.

Riesgo identificado · Mitigación · Owner. Estructura literal de cada update durante incidente

DevZen Solutions

Filial de Nümia Group

Doc IR Playbook · v1.0

Sección § 3 Comunicación

Página 04 / 07

§ 3

Cómo comunicamos.

Frecuencia mínima de updates

SEV1: cada 30 min · SEV2: cada 2h · SEV3: cada 24h · SEV4: al fix.

Canales

Primario: status page actualizada en vivo. Secundario: email a PO/Sponsor + WhatsApp/Telegram a contactos críticos del proyecto.

No hacer

Prometer fechas de fix antes del diagnóstico · culpar a terceros sin evidencia · usar jerga técnica que el PO no pueda repetir a su equipo.

Sí hacer

Usar "Riesgo identificado · Mitigación · Owner" en cada update · explicitar lo que ya se descartó · fechas tentativas solo con evidencia.

Templates literales · comunicación cliente

Copia y reemplaza placeholders. No improvises bajo presión — usa estos 4 templates como base.

01 · Acknowledgment inicial · T+5 Sr./Sra. {APELLIDO}, recibimos el reporte de {SINTOMA}. Estamos diagnosticando. Próxima actualización en 15 min.

02 · Update durante diagnóstico · cada 30 min Update {HORA}: identificamos {CAUSA_PROBABLE}. Probando mitigación: {MITIGACIÓN}. Próximo update en {N} min.

03 · Confirmación de mitigación · al cierre del incidente Update {HORA}: mitigación aplicada. Sistema operando con normalidad desde {HORA_RECUPERACIÓN}. Monitoreo intensivo durante 4h adicionales. Postmortem formal en 48h.

04 · Heads-up del postmortem · T+12h aprox Sr./Sra. {APELLIDO}, en 48h recibirá el postmortem formal del incidente del {FECHA}. Incluirá causa raíz · timeline detallado · medidas para evitar recurrencia. Si tiene preguntas antes, responda este correo.

DevZen Solutions

Filial de Nümia Group

Doc IR Playbook · v1.0

Sección § 4 Mitigación

Página 05 / 07

§ 4

Cómo mitigamos.

Árbol de decisión textual. Se ejecuta en el war room interno apenas hay diagnóstico inicial. No se aplica fix sin pasar por las preguntas.

→ ¿El incidente es del código DevZen?
SÍ · ¿Hotfix viable en menos de 2 horas?
SÍ · Desplegar hotfix con feature flag si aplica · validar en producción · 30 min de monitoreo intensivo · update al cliente.
NO · Rollback a versión anterior estable · postmortem antes de re-release · proponer fix definitivo en sprint siguiente.
NO · ¿Es un servicio externo (BBVA, SAT, Cloudflare, Supabase, etc.)?
SÍ · Levantar ticket al proveedor · documentar tiempo de respuesta · activar workaround temporal (queue · retry · cache · ruta alternativa).
NO · ¿Es del cliente (config, datos, uso fuera de spec documentado)?
SÍ · Comunicar diagnóstico al cliente con evidencia técnica · proponer fix conjunto · documentar para evitar repetición.
NO · Escalar a Nivel 2 (Kike) · revisar suposiciones del diagnóstico inicial.

Recomendamos rollback porque hotfix requiere 4h y el riesgo de cascada es alto. Re-release con fix completo en sprint siguiente. Ejemplo · frase firma aplicada a decisión de mitigación

Regla dura · cuándo NO desplegar fix

Si el incidente ocurre a menos de 2 horas del cierre del día hábil y el fix no es trivial, se prefiere rollback. Nunca se hace deploy nocturno bajo presión salvo SEV1 con datos en riesgo y autorización explícita de Kike.

DevZen Solutions

Filial de Nümia Group

Doc IR Playbook · v1.0

Sección § 5 Postmortem

Página 06 / 07

§ 5

Postmortem · template.

Se entrega al cliente en máximo 48 horas después de la resolución de cualquier SEV1. SEV2 genera postmortem interno; se comparte al cliente bajo petición.

Resumen ejecutivo{FECHA} · SEV{N} · duración {DURACIÓN_TOTAL} · impacto {IMPACTO_NEGOCIO}. Una línea, sin tecnicismos.

Timeline detalladoT+0 detección · T+{X} diagnóstico · T+{Y} mitigación · T+{Z} recuperación · T+{W} monitoreo cerrado. Anexar logs si aplica.

Causa raízFrase firma: "Recomendamos {X} porque {Y}", aplicada retrospectivamente a la decisión técnica que produjo el incidente.

Lo que funcionó2-3 puntos. Ej: detección automática del monitoreo en 30 segundos · acknowledgment al cliente en 4 min · rollback ejecutado en 12 min.

Lo que no funcionó2-3 puntos. Honestidad sin maquillaje. Ej: el monitoreo no alertó del síntoma específico · faltó runbook para este escenario · update al cliente se atrasó 8 min por falta de plantilla.

Acciones correctivasCon owner + fecha objetivo. Mínimo 1 acción técnica + 1 acción de proceso. Ej: agregar alerta específica (Kike · próximo sprint) · actualizar runbook del proyecto (freelancer · 5 días).

Compromiso al clienteCómo evitamos recurrencia. Si aplica, ajuste en el Project Runbook del proyecto + reflejo en Sprint Review template del cliente.

Anchor cultural

El postmortem es para aprender, no para culpar. Se publica internamente sin nombres de personas — solo causas técnicas. El cliente recibe la versión cliente-facing con compromisos accionables.

DevZen Solutions

Filial de Nümia Group

Doc IR Playbook · v1.0

Sección § 6 + § 7

Página 07 / 07

§ 6

Cuándo escalamos.

Nivel 1 · Freelancer asignado

Primera línea durante horario hábil del proyecto. Responde acknowledgments, ejecuta diagnóstico inicial. Escala al Nivel 2 ante SEV1 confirmado o si SEV2 excede SLA de mitigación.

Nivel 2 · Kike Vázquez

SEV1 siempre · SEV2 si el freelancer no resuelve en SLA. Toda comunicación al PO/Sponsor del cliente pasa por aquí. Decisión final de rollback vs hotfix.

Nivel 3 · Eduardo Nepote

Temas comerciales o contractuales derivados del incidente. Se invoca si el cliente amenaza con cancelación, cobro de penalización, o si el postmortem implica revisión del SOW o del MSA.

Contactos de emergencia

Kike Vázquez	kike@numia.group · +52 981 123-6415 · WhatsApp 24/7 durante SEV1
Eduardo Nepote	Vía Kike · contacto directo si pre-establecido en SOW
Suplente de guardia	{SUPLENTE_GUARDIA} · TBD por proyecto

§ 7

Cierre y mejora continua.

· Todo SEV1 genera postmortem público al cliente en 48h.
· Todo SEV2 genera postmortem interno (compartido bajo petición).
· Acciones correctivas se documentan en el Project Runbook del proyecto afectado.
· Cada trimestre se revisan todos los postmortems · se identifican patrones · se actualiza este playbook.

Kike Vázquez

CEO / CTO · DevZen Solutions

Adopción: {FECHA_ADOPCION}

Eduardo Nepote

COO / CFO · DevZen Solutions

Adopción: {FECHA_ADOPCION}

Disclaimer Template DevZen v1.0 · Documento interno operativo · Los SLAs comprometidos al cliente se rigen por el MSA cláusula 7 (garantía 90 días) y por el SOW correspondiente al proyecto. Este playbook define la mínima ejecución interna; cualquier SLA más estricto pactado contractualmente prevalece.