Y si el problema fue resuelto, genial. Comparte el conocimiento de manera más profunda que en el traspaso de guardia. Porque de esa manera todos pueden aprender de tu línea de pensamiento.
¿Y qué puedes hacer en tu día a día para estar preparado para un incidente? Los traspasos de guardia que mencioné, léelos de manera continua. ¿Por qué? Porque la producción funciona las 24 horas del día, los 7 días de la semana, no solo cuando estás de guardia. Entonces, si quieres estar al tanto de las cosas y mantenerte actualizado, lee estos traspasos y mantente al tanto de lo que está sucediendo en la producción. Además, tal vez también puedas ayudar a mejorar las cosas al ver otras cosas desde otro punto de vista. Esto ayudará en ciertos escenarios.
Punto de contacto para escalación. Debes conocer la información relevante necesaria para tu infraestructura. Pero también debes conocer otras áreas y tener una visión completa. Digamos que hay un problema con X. Si sabes que John está manejando el servicio desde el otro lado, entonces sabes que puedes escalárselo a él. Identificar los puntos de escalada del servicio de manera continua y no solo de manera ad hoc cuando ocurre un incidente ahorrará tiempo y dinero en la gestión de incidentes y salvará las horas de sueño de otra persona porque tal vez necesite despertar a mi líder de equipo para preguntar quién es responsable del servicio X. Realmente puede ayudar con la depuración y ahorrar horas de sueño a los demás.
Comprender la architecture del sistema. Verifica las áreas débiles y las vulnerabilidades, así como el alcance de la sensibilidad y el radio de acción porque de esa manera sabrás qué es propenso a fallar y tendrás una solución para arreglarlo. Una vez que conozcas la architecture del sistema, te ayudará mucho con la depuración y la resolución de problemas.
Aprender los flujos de la aplicación. Esto se trata de los flujos entre sistemas, a diferencia del punto anterior que se trataba del flujo y la architecture de un sistema para conocer sus detalles. Entonces, aquí, aprende los flujos de la aplicación. Si conoces los flujos de la aplicación, te ayudará con la solución de problemas porque sabrás qué se debe verificar y en qué orden, y contribuirá a la depuración metódica. También te ayudará a incorporar la mentalidad empresarial porque si comprendes que se necesita una escalación, este problema es en realidad un incidente, etc., entonces te ayudará a manejarlo.
Estadísticas de los miembros del equipo. Como mencioné antes, la producción ocurre todo el tiempo y no solo a través de tus tareas. Entonces, familiarízate con lo que están haciendo los demás miembros del equipo y cómo sus cambios afectan la producción, si es que hay alguno, y este punto se refiere a los cambios del 100% en producción. Es posible que otras tareas no afecten la producción, pero los despliegues o los cambios en producción definitivamente sí lo hacen. Entonces, pregunta acerca del cambio y su posible impacto porque, nuevamente, a Ops Unit o PagerDuty no le importa si no hiciste el cambio tú mismo. De todas formas te llamarán si estás de guardia. Asegúrate de saber exactamente de qué se trata el cambio y cómo manejarlo.
Y por último, pero no menos importante, sé una persona de referencia. Si eres una persona de referencia, recibirás notificaciones y disminuirás la necesidad de buscar actualizaciones por tu cuenta porque las personas vendrán a ti para informarte sobre lo que está sucediendo en la producción. Entonces, para poder navegar realmente en el caos y manejar los incidentes de producción de manera más eficiente, incorpora la mentalidad empresarial, conviértelo en un proceso estructurado y sé proactivo. De esa manera estarás preparado para cualquier incidente que se presente y, con suerte, prevenir que ocurra el próximo incidente. Y recuerda, menos incidentes significa menos tiempo de inactividad, lo que se traduce en éxito básico. Y el éxito empresarial es eventualmente tu éxito. Además, podrás conservar esas horas tan necesarias de sueño. Muchas gracias.
Comments