En el mundo de la biología computacional, los modelos de lenguaje proteico (MLP) se han convertido en herramientas esenciales. Estos modelos, basados en la misma tecnología que impulsa a los grandes modelos de lenguaje (LLM) como ChatGPT, son capaces de predecir la estructura y función de las proteínas con una precisión sorprendente. Pero, ¿cómo lo hacen? ¿Qué características de las proteínas son las que realmente tienen en cuenta para tomar sus decisiones?
Abriendo la caja negra de la predicción proteica
Un equipo de investigadores del MIT ha logrado un avance significativo en este campo. Han desarrollado una técnica novedosa para “abrir la caja negra” de los MLP, permitiendo a los científicos comprender qué características de las proteínas son más relevantes para el modelo al realizar sus predicciones. Este estudio, publicado en Proceedings of the National Academy of Sciences, podría revolucionar la forma en que se identifican nuevos fármacos y objetivos de vacunas.
Bonnie Berger, jefa del grupo de Computación y Biología del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT, destaca la importancia de este trabajo: “Nuestra investigación tiene amplias implicaciones para mejorar la interpretabilidad en tareas que dependen de estas representaciones. Además, identificar las características que rastrean los modelos de lenguaje proteico tiene el potencial de revelar nuevos conocimientos biológicos a partir de estas representaciones.”
¿Cómo funciona un modelo de lenguaje proteico?
Al igual que los LLM analizan grandes cantidades de texto para identificar patrones y relaciones entre palabras, los MLP analizan secuencias de aminoácidos. Estos modelos aprenden a predecir la probabilidad de que un aminoácido aparezca en una determinada posición dentro de una proteína, basándose en las secuencias que han visto durante el entrenamiento.
En 2018, el laboratorio de Berger introdujo el primer modelo de lenguaje proteico. Este modelo, al igual que otros posteriores como ESM2 y OmegaFold, utiliza LLM para analizar secuencias de aminoácidos. Con esta información, los investigadores pueden predecir la estructura y función de las proteínas, e incluso identificar proteínas que podrían unirse a fármacos específicos.
Sin embargo, hasta ahora, era imposible saber cómo estos modelos llegaban a sus conclusiones.
“Obteníamos una predicción al final, pero no teníamos ni idea de lo que estaba sucediendo en los componentes individuales de esta caja negra”, explica Berger.
Autoencoders dispersos: Una nueva herramienta para la interpretación
Para desentrañar este misterio, los investigadores del MIT recurrieron a una técnica llamada “autoencoder disperso” (sparse autoencoder). Esta técnica, que ya ha demostrado ser útil para analizar el funcionamiento interno de los LLM, permite expandir la representación de una proteína dentro de una red neuronal.
Normalmente, una proteína se representa mediante la activación de un número limitado de neuronas, por ejemplo, 480. Un autoencoder disperso expande esta representación a un número mucho mayor, como 20,000. Esto permite que la información se “extienda”, de modo que cada neurona se especialice en una característica específica de la proteína.
“En una representación dispersa, las neuronas que se iluminan lo hacen de una manera más significativa”, explica Onkar Gujral, autor principal del estudio. “Antes de que se creen las representaciones dispersas, las redes empaquetan la información de manera tan compacta que es difícil interpretar las neuronas”.
Claude al rescate: IA interpretando a la IA
Una vez obtenidas las representaciones dispersas de las proteínas, los investigadores utilizaron un asistente de IA llamado Claude (relacionado con el chatbot de Anthropic del mismo nombre) para analizar las representaciones. Claude comparó las representaciones dispersas con las características conocidas de cada proteína, como su función molecular, familia y ubicación celular.
Tras analizar miles de representaciones, Claude fue capaz de determinar qué nodos correspondían a características específicas de las proteínas, y describirlos en lenguaje natural. Por ejemplo, el algoritmo podría decir: “Esta neurona parece estar detectando proteínas involucradas en el transporte transmembrana de iones o aminoácidos, particularmente aquellas ubicadas en la membrana plasmática”.
De esta forma, los investigadores pudieron identificar qué características eran más importantes para el modelo al realizar sus predicciones. Descubrieron que las características más propensas a ser codificadas por estos nodos eran la familia de proteínas y ciertas funciones, incluidos varios procesos metabólicos y biosintéticos diferentes.
“Cuando entrenas un autoencoder disperso, no lo estás entrenando para que sea interpretable, pero resulta que al incentivar que la representación sea realmente dispersa, eso termina resultando en interpretabilidad”, dice Gujral.
Implicaciones para el futuro
Comprender qué características codifica un modelo de lenguaje proteico en particular podría ayudar a los investigadores a elegir el modelo adecuado para una tarea específica, o ajustar el tipo de entrada que le dan al modelo, para generar los mejores resultados. Además, analizar las características que codifica un modelo podría ayudar a los biólogos a aprender más sobre las proteínas que están estudiando.
“En algún momento, cuando los modelos se vuelvan mucho más poderosos, podrías aprender más biología de la que ya conoces, al abrir los modelos”, concluye Gujral.
En resumen, este trabajo representa un avance significativo en la interpretabilidad de los modelos de lenguaje proteico, abriendo nuevas vías para la investigación y el desarrollo de fármacos y vacunas más eficaces.
Fuente: MIT News – AI
Leave a Comment