Entrenamiento 'en tiempo real': LLMs que aprenden sobre la marcha para razonar mejor

Los modelos de lenguaje grandes (LLMs) han demostrado ser herramientas impresionantes, pero a menudo flaquean cuando se enfrentan a tareas nuevas y desafiantes que requieren habilidades de razonamiento complejo. Un LLM que destaca resumiendo informes financieros podría fallar al predecir tendencias del mercado o detectar transacciones fraudulentas.

Entrenamiento en tiempo real: la clave para LLMs más adaptables

Para abordar esta limitación, investigadores del MIT han explorado una técnica de entrenamiento que se aplica estratégicamente para mejorar el rendimiento de un modelo ante problemas difíciles y desconocidos: el entrenamiento en tiempo real (test-time training).

Este método implica actualizar temporalmente algunos de los parámetros internos del modelo durante su uso. Los resultados son asombrosos: ¡un aumento de hasta seis veces en la precisión! El equipo de investigación desarrolló un marco de trabajo para implementar esta estrategia, utilizando ejemplos de la nueva tarea para maximizar las ganancias.

Según Ekin Akyürek PhD ’25, autor principal del estudio: “El aprendizaje genuino, lo que hicimos aquí con el entrenamiento en tiempo real, es algo que estos modelos no pueden hacer por sí solos una vez que se implementan. No pueden adquirir nuevas habilidades ni mejorar en una tarea. Pero hemos demostrado que, si se empuja al modelo un poco para que aprenda de verdad, se pueden producir enormes mejoras en el rendimiento”.

¿Cómo funciona el entrenamiento en tiempo real?

Normalmente, los usuarios de LLMs intentan mejorar el rendimiento de su modelo en una tarea nueva utilizando el aprendizaje en contexto (in-context learning). Esto implica proporcionar al modelo algunos ejemplos de la nueva tarea como indicaciones de texto que guían sus resultados.

Sin embargo, el aprendizaje en contexto no siempre funciona para problemas que requieren lógica y razonamiento. Es aquí donde entra en juego el entrenamiento en tiempo real. Este método actualiza algunos parámetros del modelo (las variables internas que utiliza para hacer predicciones) utilizando una pequeña cantidad de datos nuevos específicos de la tarea en cuestión.

Los investigadores del MIT exploraron cómo el entrenamiento en tiempo real interactúa con el aprendizaje en contexto y estudiaron las opciones de diseño que maximizan las mejoras de rendimiento que se pueden obtener de un LLM de propósito general.

“Descubrimos que el entrenamiento en tiempo real es una forma de aprendizaje mucho más sólida. Si bien simplemente proporcionar ejemplos puede aumentar modestamente la precisión, actualizar realmente el modelo con esos ejemplos puede conducir a un rendimiento significativamente mejor, particularmente en dominios desafiantes”, explica Mehul Damani, estudiante graduado que participa en la investigación.

Optimizando el proceso de entrenamiento

Para ampliar el conjunto de datos utilizado en el entrenamiento en tiempo real, los investigadores crean nuevas entradas modificando ligeramente los problemas y las soluciones de los ejemplos existentes. Además, solo actualizan una pequeña cantidad de parámetros del modelo utilizando una técnica llamada adaptación de bajo rango (low-rank adaptation), lo que mejora la eficiencia del proceso.

La optimización del proceso es clave, ya que el entrenamiento en tiempo real se emplea por instancia, lo que significa que un usuario tendría que hacerlo para cada tarea individual. Las actualizaciones al modelo son temporales y el modelo vuelve a su forma original después de hacer una predicción.

Implicaciones y futuro de esta técnica

Si bien un modelo normalmente tarda menos de un minuto en responder a una consulta, con el entrenamiento en tiempo real podría tardar entre cinco y diez minutos. Como señala Akyürek, este método no sería necesario para todas las consultas, pero sí resulta útil para tareas muy difíciles que requieren una alta precisión.

Las pruebas realizadas en conjuntos de datos de problemas complejos, como rompecabezas de coeficiente intelectual, mostraron un aumento de hasta seis veces en la precisión en comparación con las técnicas que solo utilizan el aprendizaje en contexto. Las tareas que involucraban patrones estructurados o tipos de datos completamente desconocidos mostraron las mayores mejoras en el rendimiento.

En el futuro, los investigadores planean utilizar estos conocimientos para desarrollar modelos que aprendan continuamente. El objetivo a largo plazo es un LLM que, dada una consulta, pueda determinar automáticamente si necesita utilizar el entrenamiento en tiempo real para actualizar los parámetros o si puede resolver la tarea utilizando el aprendizaje en contexto, y luego implementar la mejor estrategia de entrenamiento en tiempo real sin necesidad de intervención humana.

Este avance abre un camino prometedor para LLMs más inteligentes, adaptables y capaces de afrontar los desafíos del mundo real.

Fuente: MIT News – AI