¿Alguna vez te has preguntado cómo ChatGPT adivina la siguiente palabra que vas a escribir? O cómo una IA predice el tiempo con tanta precisión? Investigadores del MIT (Computer Science and Artificial Intelligence Laboratory) han descubierto que los modelos de lenguaje, como los que impulsan estas tecnologías, utilizan atajos matemáticos ingeniosos para anticipar escenarios dinámicos. Vamos a sumergirnos en este fascinante hallazgo.
El truco mental de las IAs: No es lo que parece
Cuando leemos una historia o jugamos al ajedrez, nuestra mente rastrea cómo cambia la situación en cada paso, actualizando constantemente nuestra predicción de lo que sucederá a continuación. Los modelos de lenguaje también hacen algo similar, pero no exactamente igual. En lugar de seguir cada cambio de estado secuencialmente, utilizan ‘atajos’ matemáticos para llegar a una predicción razonable.
El Experimento del Cubilete Digital
Para entender mejor cómo funcionan estos atajos, los investigadores diseñaron un experimento inspirado en el clásico juego de concentración. Se le presentaba al modelo una secuencia de dígitos, por ejemplo, ‘42135’, junto con instrucciones para mover los dígitos de un lugar a otro. El objetivo era que el modelo predijera el orden final de los números después de todas las permutaciones.
Lo sorprendente es que, en lugar de simular cada movimiento paso a paso, los modelos de lenguaje encontraron formas de agregar información entre los estados sucesivos y calcular la permutación final directamente.
Algoritmos Asociativos: Los ‘Ases’ bajo la manga
El equipo de investigación identificó dos algoritmos principales que los modelos de lenguaje utilizan para realizar estas predicciones:
- Algoritmo Asociativo: Organiza los pasos cercanos en grupos y calcula una suposición final. Imagina esto como un árbol genealógico donde la disposición numérica inicial es la raíz, y los pasos adyacentes se agrupan en ramas que se multiplican entre sí.
- Algoritmo Asociativo de Paridad: Reduce las opciones antes de agruparlas. Determina si la disposición final es el resultado de un número par o impar de reordenamientos y luego agrupa las secuencias adyacentes antes de multiplicarlas.
Belinda Li, estudiante de doctorado del MIT y autora principal del estudio, explica que estos comportamientos revelan que los ‘transformers’ (la arquitectura interna de estos modelos) realizan simulaciones mediante un escaneo asociativo. En lugar de seguir los cambios de estado paso a paso, los modelos los organizan en jerarquías.
Herramientas para ‘espiar’ la mente de la IA
Para observar cómo funcionan estos algoritmos, los investigadores utilizaron dos herramientas clave:
- Probing: Muestra qué información fluye a través del sistema de IA, mapeando las predicciones del modelo en diferentes momentos del experimento.
- Activation Patching: Permite ‘meterse’ con las ideas del sistema, inyectando información incorrecta en ciertas partes de la red y observando cómo el sistema ajusta sus predicciones.
Implicaciones y el futuro de la IA
Este descubrimiento tiene implicaciones importantes para el desarrollo futuro de los modelos de lenguaje. Al comprender cómo estos sistemas utilizan atajos matemáticos, los ingenieros pueden controlar cuándo y cómo se aplican estos métodos para mejorar las capacidades predictivas de las IAs. Como señala Keyon Vafa, investigador postdoctoral de la Universidad de Harvard, la capacidad de rastrear el estado de las cosas es crucial para muchas aplicaciones de los modelos de lenguaje, desde proporcionar recetas hasta escribir código y mantener conversaciones.
El equipo de investigación planea seguir investigando estas hipótesis, probando modelos de lenguaje de diferentes tamaños y evaluando su rendimiento en tareas dinámicas del mundo real, como el seguimiento de código y la evolución de historias.
Conclusión: Un nuevo horizonte para la inteligencia artificial
La investigación del MIT nos revela que las IAs no ‘piensan’ como nosotros, pero eso no las hace menos inteligentes. Al contrario, su capacidad para encontrar atajos matemáticos demuestra una forma diferente y fascinante de procesar la información y predecir el futuro. Este conocimiento abre nuevas vías para optimizar y mejorar los modelos de lenguaje, haciéndolos más confiables y eficientes en una amplia gama de aplicaciones.
Fuente: MIT News – AI
Leave a Comment