¡GitHub Copilot se vuelve aún más inteligente! Descubre su nuevo modelo de embeddings para búsqueda de código

La búsqueda eficiente de código es crucial para cualquier desarrollador. GitHub ha escuchado a su comunidad y ha lanzado un nuevo modelo de embeddings para GitHub Copilot, optimizando la búsqueda de código en VS Code. ¿El resultado? Mayor velocidad, menor consumo de memoria y una precisión asombrosa.

¿Por qué es importante?

Las experiencias de programación basadas en IA dependen de la capacidad de encontrar el contexto adecuado: fragmentos de código, funciones, tests, documentación y hasta errores que coincidan con la intención del desarrollador. Los embeddings, representaciones vectoriales del código y lenguaje natural, son la clave para esta búsqueda semántica.

Un mejor modelo de embeddings se traduce en una búsqueda más precisa y, por ende, en una experiencia superior con GitHub Copilot.

¿Qué novedades trae este modelo?

GitHub ha entrenado e implementado un nuevo modelo de embeddings diseñado específicamente para código y documentación. Este modelo ahora potencia la recuperación de contexto en GitHub Copilot chat, así como en los modos agente, edición y ‘ask’ (pregunta).

Impacto

Calidad de búsqueda mejorada: Aumento relativo del 37.6% en la calidad de búsqueda. En desarrolladores C# y Java, se observó un aumento en la aceptación de código del 110.7% y 113.1% respectivamente.
Mayor eficiencia: El rendimiento de embeddings es dos veces mayor, reduciendo la latencia. Además, el tamaño del índice de memoria se reduce en 8 veces, mejorando la escalabilidad.

Un ejemplo práctico:

Pregunta del desarrollador: “¿Qué método se invoca para encontrar un solo espacio de nombres por su nombre dentro del proyecto?”

Resultado con el nuevo modelo:

class Namespace extends K8Object {
  /*...*/
  static findOne(params = {}, options = {}) {
    return Model.findOne(params, options).then((namespace) => {
      console.log(namespace);
      if (namespace) {
        return new Namespace(namespace).setResourceVersion();
      }
    });
  }
  /*...*/
}

El nuevo modelo identifica correctamente la función findOne.

Resultado con el modelo anterior:

class Namespace extends K8Object {
  /*...*/
  static find(params = {}, options = {}) {
    return Model.find(params, options).then((namespaces) => {
      if (namespaces) {
        return Promise.all(
          namespaces.map((namespace) =>
            new Namespace(namespace).setResourceVersion()
          )
        );
      }
    });
  }
  /*...*/
}

El modelo anterior devolvía la función find, semánticamente similar, pero incorrecta.

Este nuevo modelo no solo ofrece respuestas más precisas, sino que también distingue mejor entre resultados relevantes y muy relevantes.

Otros beneficios incluyen:

Búsqueda de funciones de prueba en monorepositorios grandes.
Encontrar métodos auxiliares distribuidos en múltiples archivos.
Depuración de código: “mostrar dónde se maneja esta cadena de error”.

¿Cómo se entrenó el modelo?

El objetivo principal fue optimizar la calidad de la búsqueda para cargas de trabajo reales de desarrolladores, manteniendo la latencia y el uso de memoria dentro de los límites aceptables.

Para ello, se utilizó el aprendizaje contrastivo con InfoNCE loss y Matryoshka Representation Learning, una técnica que ayuda a los embeddings a diferenciar entre fragmentos de código casi idénticos, al tiempo que admite múltiples tamaños de embeddings para mayor flexibilidad.

Un componente clave fue el entrenamiento con “negativos duros”: ejemplos de código que parecen correctos, pero no lo son. La mayoría de los errores en la búsqueda de código provienen de estos casos, por lo que enseñar al modelo a distinguirlos fue crucial para mejorar la calidad.

Los cinco lenguajes de programación principales utilizados en el entrenamiento fueron:

Python (36.7%)
Java (19.0%)
C++ (13.8%)
JavaScript/TypeScript (8.9%)
C# (4.6%)

¿Qué sigue?

Este nuevo modelo de embeddings es un paso adelante en la evolución de los asistentes de codificación con IA. En el futuro, GitHub planea:

Ampliar los datos de entrenamiento y evaluación a más lenguajes y repositorios.
Perfeccionar el proceso de identificación de “negativos duros” para mejorar la calidad.
Aprovechar las mejoras de eficiencia para implementar modelos más grandes y precisos.

Si quieres probar las nuevas funcionalidades de búsqueda inteligente, puedes acceder a GitHub Copilot en VS Code.

En resumen, el nuevo modelo de embeddings de GitHub Copilot representa un salto cualitativo en la búsqueda y recuperación de código, haciendo la vida de los desarrolladores más fácil y eficiente. ¡Prepárate para una experiencia de programación con IA como nunca antes!

Fuente: GitHub Blog