¿GitHub Copilot más rápido y eficiente? Descubre su nueva estrategia con menos herramientas

¿Te ha pasado que GitHub Copilot tarda demasiado en responder? El equipo de GitHub ha estado trabajando en ello, y la solución es sorprendente: ¡menos es más! En lugar de abrumar a Copilot con cientos de herramientas, se han centrado en un conjunto más pequeño y optimizado. Veamos cómo lo han hecho.

El problema de tener demasiadas herramientas

En VS Code, GitHub Copilot Chat puede acceder a muchísimas herramientas a través del Model Context Protocol (MCP), desde herramientas de análisis de código hasta utilidades específicas de Azure. Sin embargo, darle a un agente demasiadas herramientas no siempre lo hace más inteligente, a veces simplemente lo hace más lento. Si alguna vez has visto el spinner de carga en VS Code, has experimentado los límites de un modelo que intenta razonar con demasiadas herramientas a la vez.

La solución: Dos nuevos sistemas y un conjunto de herramientas reducido

Para solucionar este problema, GitHub ha implementado dos nuevos sistemas: enrutamiento de herramientas guiado por embeddings y clustering adaptativo de herramientas. Además, han reducido el conjunto de herramientas predeterminado de 40 a solo 13 herramientas esenciales. Según pruebas comparativas como SWE-Lancer y SWEbench-Verified, con GPT-5 y Sonnet 4.5, estos cambios mejoran las tasas de éxito entre un 2% y un 5%. En las pruebas A/B en línea, se reduce la latencia de respuesta en un promedio de 400 milisegundos.

¿Cómo funciona el clustering adaptativo de herramientas?

Inicialmente, GitHub alimentó todas las herramientas disponibles a un LLM y le pidió que las agrupara y resumiera, pero esto presentó dos problemas importantes:

No se podía controlar la cantidad de grupos creados, y a veces excedía los límites del modelo.
Era extremadamente lento e implicaba un enorme coste de tokens. El modelo a veces olvidaba categorizar ciertas herramientas, lo que obligaba a realizar reintentos.

Para abordar este problema, aplicaron su modelo de embedding interno de Copilot, optimizado para tareas de similitud semántica, para generar embeddings para cada herramienta y agruparlas utilizando la similitud coseno. Este método de clustering permitió crear grupos precisos, estables y reproducibles. Todavía utilizan una llamada al modelo para resumir cada clúster, pero este paso es mucho más rápido y económico que pedirle al modelo que categorice todo desde cero. Los embeddings de las herramientas y los resúmenes de los grupos se almacenan en caché localmente, por lo que volver a calcularlos es comparativamente económico.

Enrutamiento de herramientas guiado por embeddings: Contexto es clave

Una vez que las herramientas fueron agrupadas, surgió otro problema: ¿cómo sabe el modelo qué grupo abrir sin tener que revisarlos todos? Para abordar esto, introdujeron el Enrutamiento de Herramientas Guiado por Embeddings. Antes de que se expanda cualquier grupo de herramientas, el sistema compara el embedding de la consulta con representaciones vectoriales de todas las herramientas (y sus clústeres), lo que le permite preseleccionar los candidatos semánticamente más relevantes, incluso si están ocultos dentro de un grupo.

Con el enrutamiento consciente del contexto, pueden inferir desde el principio que es muy probable que el modelo necesite la herramienta de fusión dentro del grupo de herramientas MCP de GitHub, e incluirla directamente en su conjunto de candidatos, eliminando llamadas exploratorias innecesarias y reduciendo significativamente la latencia y las tasas de error.

Menos es más: Reduciendo el conjunto de herramientas predeterminado

Incluso sin alcanzar los límites del modelo que pueden desencadenar los servidores MCP masivos, un conjunto de herramientas integrado de gran tamaño degrada el rendimiento. En pruebas comparativas fuera de línea, observaron una disminución de 2 a 5 puntos porcentuales en la tasa de resolución en pruebas comparativas, incluido SWE-Lancer, cuando el agente tenía acceso al conjunto completo de herramientas integrado. En cuanto al comportamiento, el agente termina ignorando las instrucciones explícitas, utilizando las herramientas incorrectamente y llamando a herramientas que son innecesarias para la tarea en cuestión.

Por lo tanto, redujeron la lista. Basándose en las estadísticas de uso de las herramientas y los datos de rendimiento, identificaron un conjunto de herramientas centrales de 13 herramientas esenciales. Estas herramientas abarcan el análisis de la estructura del repositorio de alto nivel, la lectura y edición de archivos, la búsqueda de contexto y el uso del terminal.

Las herramientas integradas restantes, no esenciales, se agrupan en cuatro categorías virtuales: Herramientas de Jupyter Notebook, Herramientas de Interacción Web, Herramientas de Espacio de Trabajo de VS Code y Herramientas de Prueba. De esta manera, el modelo ve el conjunto central más pequeño de entrada y puede expandir los grupos solo si es necesario. Como resultado, los usuarios con el conjunto de herramientas reducido experimentan una disminución promedio de 190 milisegundos en TTFT (Tiempo Para El Primer Token) y una disminución promedio de 400 milisegundos en TTFT (Tiempo Para El Token Final, o tiempo para completar la respuesta del modelo).

El futuro de Copilot: Razonamiento a largo plazo

El desafío no es solo elegir la herramienta correcta, sino razonar a través del tiempo, el contexto y las interacciones. Un modelo verdaderamente inteligente no solo debe reaccionar a las consultas, sino que debe recordar el uso previo de las herramientas, inferir la intención del historial y planificar acciones de varios pasos durante sesiones largas. En este sentido, la selección de herramientas es una forma temprana de razonamiento de contexto largo. Los mismos mecanismos que ayudan a los modelos a enrutar a la herramienta correcta hoy podrían, en el futuro, ayudarlos a razonar a través de miles de turnos, ayudándolos a decidir cuándo actuar, cuándo delegar y cuándo detenerse.

El siguiente paso es explorar cómo los embeddings, la memoria y las señales de refuerzo pueden combinarse para crear agentes conscientes del contexto que aprendan a usar las herramientas, no solo cuáles elegir.

Conclusión

GitHub Copilot está evolucionando para ser más inteligente y eficiente. La reducción del número de herramientas, junto con las nuevas técnicas de enrutamiento y clustering, promete una experiencia de codificación más fluida y rápida. ¡Prepárense para un Copilot aún más potente!

Fuente: Github Blog