Octubre de 2025 no fue el mejor mes para GitHub. La plataforma experimentó cuatro incidentes separados que afectaron la disponibilidad y el rendimiento de varios de sus servicios clave. A continuación, te presentamos un resumen de lo que ocurrió y las medidas que GitHub está tomando para evitar que se repita.
Resumen de los Incidentes de Octubre
GitHub ha publicado su informe de disponibilidad para octubre de 2025, detallando cuatro incidentes que causaron problemas a los usuarios. Aquí te damos los puntos clave:
Incidente del 9 de Octubre: Problemas de Red
El 9 de octubre, un dispositivo de red en mantenimiento fue reintroducido a producción antes de completar las reparaciones necesarias. Esto provocó una pérdida significativa de paquetes de datos en el tráfico de red.
- Impacto: Los usuarios autenticados experimentaron mayor latencia en la interfaz de usuario de github.com. Los usuarios de la API vieron tasas de error de hasta el 7.3%, estabilizándose luego en un 0.05%. El servicio Actions tuvo un 24% de retraso en las ejecuciones, con un promedio de 13 minutos. Large File Storage (LFS) tuvo un ligero incremento en la tasa de error, alcanzando el 0.038%.
- Solución: GitHub está mejorando el proceso de validación para las reparaciones de dispositivos de red.
Incidente del 17 de Octubre: Fallo en Notificaciones Push Móviles
El 17 de octubre, las notificaciones push móviles dejaron de entregarse durante 70 minutos. Esto afectó a github.com y GitHub Enterprise Cloud en todas las regiones.
- Impacto: No se entregaron notificaciones push móviles.
- Solución: GitHub está revisando los procedimientos y la gestión de los recursos en la nube utilizados para la entrega de notificaciones push móviles.
Incidente del 20 de Octubre: Degradación de Codespaces
El 20 de octubre, el servicio Codespaces se degradó, impidiendo a los usuarios crear nuevos Codespaces y reanudar los existentes.
- Impacto: La tasa de error en la creación de Codespaces fue del 39.5% en promedio, alcanzando un pico del 71%. Las operaciones de reanudación tuvieron una tasa de error promedio del 23.4%, con un pico del 46%. Esto se debió a un fallo en cascada provocado por una interrupción en una dependencia de terceros necesaria para construir imágenes devcontainer.
- Solución: GitHub está evaluando opciones para asegurar que esta dependencia no sea un punto crítico en el proceso de construcción de contenedores, además de mejorar la monitorización y las alertas para reducir el tiempo de detección de problemas similares.
Incidente del 29 de Octubre: Interrupción Masiva por Terceros
El 29 de octubre, GitHub experimentó una degradación del servicio debido a una interrupción generalizada en un proveedor externo.
- Impacto: Los usuarios de Codespaces enfrentaron graves problemas de conexión, con tasas de error que promediaron el 90% y alcanzaron un pico del 100%. GitHub Actions también se vio afectado, con un 0.5% de los flujos de trabajo y casi el 10% de los trabajos de ejecución grandes fallando o retrasándose más de cinco minutos. El servicio GitHub Enterprise Importer también se vio afectado, causando fallos en la migración durante las operaciones de git push y retrasos significativos en el procesamiento de migraciones. Adicionalmente, las nuevas pruebas de GitHub Enterprise Cloud con Data Residency se retrasaron, y las descargas de la API de Copilot Metrics no estuvieron disponibles.
- Solución: Se aplicaron mitigaciones durante el incidente, pero la recuperación total se logró una vez que el proveedor de servicios resolvió su interrupción. GitHub se está enfocando en reducir las dependencias críticas de proveedores externos e implementar estrategias para degradar los servicios de manera controlada durante eventos similares.
Lecciones Aprendidas y Próximos Pasos
GitHub está tomando en serio estos incidentes y está trabajando para mejorar la resiliencia de su plataforma. Las medidas incluyen:
- Mejoras en los procesos de validación para reparaciones de dispositivos de red.
- Revisión de la gestión de recursos en la nube para notificaciones push.
- Evaluación de alternativas para reducir la dependencia de terceros en la construcción de contenedores de Codespaces.
- Reducción de dependencias críticas en proveedores externos.
- Implementación de estrategias para una degradación controlada de los servicios durante interrupciones.
Conclusión
Aunque octubre de 2025 presentó desafíos para la estabilidad de GitHub, la compañía está respondiendo con medidas concretas para mejorar su infraestructura y reducir la probabilidad de futuros incidentes. Estaremos atentos a los próximos informes para ver cómo evolucionan estas mejoras.
Leave a Comment