GitHub MCP Server: Evaluando la Inteligencia de las Herramientas de IA Offline

En el mundo del desarrollo de software, la integración de la inteligencia artificial se ha convertido en una pieza clave para la optimización de procesos y la mejora de la productividad. GitHub, consciente de esto, ha estado trabajando en el desarrollo de herramientas de IA que se integran a la perfección con su plataforma. Uno de los componentes esenciales de este ecosistema es el GitHub MCP (Model Context Protocol) Server, que actúa como un puente entre los modelos de IA y las APIs y datos de GitHub.

¿Qué es GitHub MCP Server?

Imagina un enchufe universal que permite a los modelos de IA (LLMs) comunicarse con las APIs y los datos. Eso es, en esencia, el MCP. Un servidor MCP, en este contexto, es cualquier servicio o aplicación que “habla MCP” y ofrece herramientas que el modelo puede utilizar, publicando una lista de herramientas, sus funciones y los parámetros que necesitan.

El GitHub MCP Server es la base de muchos flujos de trabajo de GitHub Copilot, tanto dentro como fuera de GitHub. El equipo de ingeniería detrás de GitHub MCP se enfoca en ofrecer nuevas características y funcionalidades, evitando regresiones y mejorando la calidad en cada iteración. La forma en que se nombra una herramienta, se explica lo que hace y se detallan sus parámetros afecta directamente a si el modelo elige la herramienta correcta, en el orden correcto y con los argumentos correctos.

La Importancia de la Evaluación Offline

GitHub ha implementado un sistema de evaluación offline para asegurar que los cambios en el MCP Server realmente mejoren el rendimiento y no introduzcan errores. Este sistema permite detectar regresiones antes de que afecten a los usuarios, acortando el ciclo de retroalimentación y permitiendo implementar mejoras de forma segura.

La evaluación offline comprueba cómo funcionan los *prompts* de las herramientas en diferentes modelos. Las instrucciones de las herramientas se mantienen simples y precisas para que el modelo pueda elegir la herramienta correcta y rellenar los parámetros correctos. Debido a que los LLM varían en cómo utilizan las herramientas, se prueba sistemáticamente cada emparejamiento modelo-MCP para medir la compatibilidad, la calidad y las carencias.

¿Cómo Funciona la Evaluación Automatizada?

El proceso de evaluación se divide en tres etapas:

Cumplimiento (Fulfillment): Se ejecutan pruebas en múltiples modelos, proporcionando la lista de herramientas MCP disponibles con cada solicitud. Se registra qué herramientas invoca el modelo y qué argumentos proporciona.
Evaluación: Se procesan los resultados brutos y se calculan métricas y puntuaciones.
Resumen: Se agregan estadísticas a nivel de conjunto de datos y se genera el informe de evaluación final.

Métricas Clave en la Evaluación

La evaluación se centra en dos aspectos principales: la selección correcta de herramientas y la corrección de los argumentos.

Selección de Herramientas

Cuando se trata de una sola llamada a una herramienta, la selección se convierte en un problema de clasificación multiclase. Cada prueba está etiquetada con la herramienta esperada, y cada herramienta es una “clase”. Los modelos se evalúan utilizando métricas como:

Precisión (Accuracy): Porcentaje de clasificaciones correctas.
Precisión (Precision): Proporción de casos en los que la herramienta se llamó correctamente.
Exhaustividad (Recall): Proporción de herramientas llamadas correctamente del total de casos en que se esperaba que se llamara a la herramienta.
Puntuación F1 (F1-score): Media armónica de precisión y exhaustividad.

Para identificar confusiones entre herramientas similares, se utiliza una matriz de confusión, que muestra qué herramientas se confunden entre sí, permitiendo ajustar las descripciones para minimizar estos errores.


Expected tool / Called tool | search_issues | list_issues
---------------------------|----------------|-------------
search_issues              |       7        |      3
list_issues                |       0        |      10

Corrección de Argumentos

No basta con seleccionar la herramienta correcta; el modelo también debe proporcionar los argumentos correctos. Se rastrean cuatro métricas de calidad de los argumentos:

Alucinación de Argumentos: Frecuencia con la que el modelo proporciona nombres de argumentos no definidos para la herramienta.
Todos los Argumentos Esperados Proporcionados: Indica si están presentes todos los argumentos esperados.
Todos los Argumentos Requeridos Proporcionados: Indica si se incluyen todos los argumentos requeridos.
Coincidencia Exacta del Valor: Indica si los valores de los argumentos proporcionados coinciden exactamente con los valores esperados.

Mejoras Futuras

GitHub planea seguir mejorando su sistema de evaluación offline, expandiendo la cobertura de pruebas, refinando las descripciones de las herramientas y extendiendo la canalización para manejar flujos de múltiples herramientas.

Aumento del Volumen de Benchmarks: Necesidad de una cobertura más robusta por herramienta.
Evaluación de Flujos Multi-Herramienta: Evaluar secuencias de llamadas a herramientas, simulando o ejecutando las llamadas durante la evaluación.
Actualización del Resumen: Pasar de la clasificación multiclase a la multi-etiqueta para flujos que involucran múltiples herramientas por entrada.

Conclusión

La evaluación offline es una herramienta crucial para mejorar la calidad y la precisión de las herramientas de IA en GitHub. Al combinar pruebas exhaustivas con métricas claras, GitHub puede iterar de forma segura en su MCP Server, asegurando que los modelos de IA seleccionen las herramientas correctas con los argumentos correctos. Esto se traduce en una experiencia más fiable y eficiente para los desarrolladores que utilizan estas herramientas.

Este enfoque proactivo garantiza que las mejoras en el GitHub MCP Server sean constantes y predecibles, beneficiando a todos los que construyen con él.