¡Saludos, Agentes Geek! GitHub ha publicado su informe de disponibilidad correspondiente a diciembre de 2025, revelando una serie de incidentes que impactaron en la plataforma. A continuación, desglosamos los problemas y las soluciones implementadas para mantener a GitHub funcionando para todos nosotros.
Resumen de Incidentes en Diciembre de 2025
Durante el mes de diciembre, GitHub experimentó cinco incidentes que resultaron en una degradación del rendimiento de sus servicios. Aquí te presentamos un resumen de cada uno:
Interrupción en Enterprise AI Controls (8 de diciembre)
Hora: 19:51 UTC (duración: 1 hora y 15 minutos)
Los administradores empresariales se encontraron con problemas al visualizar la actividad de las sesiones de agentes en la página de Controles de IA Empresarial. No podían listar la actividad de la sesión del agente en la vista de Controles de IA. Este problema no afectó la visualización de la actividad de la sesión del agente en los registros de auditoría, la navegación directa a los registros individuales de la sesión del agente o la gestión de agentes de IA.
Causa: Una configuración incorrecta en un cambio desplegado el 25 de noviembre impidió la publicación de datos en un tema interno de Kafka.
Mitigación: Se corrigió la configuración el 8 de diciembre. GitHub está mejorando la monitorización de las dependencias de la canalización de datos y mejorando la validación previa a la implementación para detectar problemas de configuración antes de que lleguen a producción.
Degradación en Copilot Code Review (15 de diciembre)
Hora: 17:43 UTC (duración: 39 minutos)
Copilot Code Review experimentó una degradación del servicio que provocó el fallo del 46.97% de las solicitudes de revisión de pull requests, lo que obligó a los usuarios a volver a solicitar una revisión. Los usuarios afectados vieron el mensaje de error: “Copilot encontró un error y no pudo revisar este pull request. Puede intentarlo de nuevo volviendo a solicitar una revisión.” Las solicitudes restantes se completaron con éxito.
Causa: Tiempos de respuesta elevados en una dependencia interna basada en modelos, lo que provocó tiempos de espera de las solicitudes y contrapresión en la canalización de procesamiento de revisiones, lo que provocó un crecimiento sostenido de la cola y el fallo en la finalización de la revisión.
Mitigación: Se evitó temporalmente las sugerencias de corrección para reducir la latencia, se aumentó la capacidad de los workers para drenar el backlog y se implementó un cambio en la configuración del modelo que redujo la latencia de extremo a extremo. La profundidad de la cola y las tasas de éxito de las solicitudes volvieron a la normalidad y se mantuvieron estables durante el pico de tráfico.
Tras el incidente, GitHub aumentó la capacidad de base de los workers, añadió instrumentación para la utilización de los workers y el estado de la cola, y está mejorando la descarga automática de la carga, el comportamiento de fallback y las alertas para reducir el tiempo de detección y mitigación de problemas similares.
Timeouts Intermitentes en GitHub Actions Runners (18 de diciembre)
Hora: 16:33 UTC (duración: 1 hora y 8 minutos)
Algunos GitHub Actions runners experimentaron timeouts intermitentes para las llamadas a la API de Github, lo que provocó fallos durante la configuración del runner y la ejecución del workflow. Aproximadamente el 1.5% de los trabajos en los runners alojados estándar y más grandes en la región Oeste de EE. UU. (el 0.28% de todos los trabajos de Actions) se vieron afectados durante este período.
Causa: Pérdida de paquetes de red entre los runners en la región Oeste de EE. UU. y uno de los sitios perimetrales de GitHub.
Mitigación: Se desvió todo el tráfico del sitio perimetral afectado, mitigando los timeouts. Se está trabajando para mejorar la detección temprana de problemas de conectividad entre nubes y rutas de mitigación más rápidas para reducir el impacto de problemas similares en el futuro.
Degradación del Servicio de Políticas de Copilot (18 de diciembre)
Hora: 17:36 UTC (duración: 1 hora y 33 minutos)
El servicio subyacente a las políticas de Copilot se degradó y los usuarios, organizaciones y empresas no pudieron actualizar ninguna política relacionada con Copilot. Ningún otro servicio de GitHub, incluidos otros servicios de Copilot, se vio afectado.
Causa: Una migración de la base de datos causó una desviación del esquema.
Mitigación: Se sincronizó el esquema. GitHub ha reforzado el servicio para asegurarse de que la desviación del esquema no cause más incidentes, y investigará las mejoras en su canalización de despliegue para acortar el tiempo de mitigación en el futuro.
Degradación de Peticiones No Autenticadas (22 de diciembre)
Hora: 22:31 UTC (duración: 1 hora y 46 minutos)
Las peticiones no autenticadas a github.com se degradaron, lo que provocó cargas de página y peticiones a la API lentas o con tiempos de espera. Las peticiones no autenticadas de los trabajos de Actions, como las descargas de versiones, también se vieron afectadas. El tráfico autenticado no se vio afectado.
Causa: Un pico severo de tráfico, principalmente a los endpoints de búsqueda.
Mitigación: La respuesta inmediata se centró en identificar y mitigar la fuente del aumento de tráfico, lo que, junto con la gestión automatizada del tráfico, restableció el servicio completo para los usuarios. GitHub mejoró los limitadores de carga a los endpoints relevantes y continúa trabajando para identificar de forma más proactiva estos grandes cambios en el volumen de tráfico, mejorar la resistencia en los flujos de peticiones críticos y mejorar el tiempo de mitigación.
Conclusión
El informe de disponibilidad de GitHub para diciembre de 2025 muestra un mes con varios desafíos. Sin embargo, es importante destacar la transparencia de GitHub al comunicar estos incidentes, así como su compromiso de mejorar la estabilidad y resiliencia de la plataforma. Estaremos atentos a los próximos informes para ver cómo evolucionan estas mejoras.
Fuente: GitHub Blog
Leave a Comment