Los modelos de lenguaje (LLM) como GPT-4 están revolucionando la atención médica, ayudando a redactar notas clínicas y a clasificar mensajes de pacientes. Sin embargo, un nuevo estudio del MIT revela una vulnerabilidad preocupante: estos sistemas pueden ser engañados por información no clínica, afectando la precisión de sus recomendaciones.
El Problema: Errores Triviales, Consecuencias Serias
Imagina que le escribes a un chatbot médico con una duda. Un simple error tipográfico, un espacio en blanco extra o incluso el uso de un lenguaje coloquial podrían hacer que la IA interprete mal tu mensaje. Según la investigación del MIT, estas variaciones no clínicas pueden influir en la decisión del LLM sobre si debes quedarte en casa o buscar atención médica urgente.
¿Cómo Afecta esto a las Mujeres?
El estudio encontró que las variaciones no clínicas en el texto tienen más probabilidades de cambiar las recomendaciones de tratamiento para las pacientes femeninas. Esto resulta en un porcentaje más alto de mujeres a las que erróneamente se les aconseja no buscar atención médica, según la evaluación de médicos humanos. En esencia, la IA parece ser más susceptible a los errores cuando se trata de evaluar la salud de las mujeres.
El Experimento: Probando la Resiliencia de los LLM
Los investigadores del MIT modificaron datos de entrada de un LLM, alterando o eliminando marcadores de género, añadiendo lenguaje colorido o incierto, e insertando espacios extra y erratas en los mensajes de los pacientes. El objetivo era simular cómo se comunican personas de poblaciones vulnerables. Abinitha Gourabathina, autora principal del estudio, explica: “Los conjuntos de datos médicos con los que se entrenan estos modelos suelen estar limpios y estructurados, y no reflejan de forma muy realista a la población de pacientes. Queríamos ver cómo estos cambios muy realistas en el texto podían afectar a los casos de uso posteriores”.
Resultados Inconsistentes: Un Llamado a la Acción
Los resultados revelaron inconsistencias significativas en las recomendaciones de tratamiento cuando los LLM recibían datos alterados. En general, hubo un aumento del 7 al 9 por ciento en las sugerencias de auto-manejo para todos los tipos de mensajes de pacientes modificados. Además, los modelos cometieron aproximadamente un 7 por ciento más de errores para las pacientes femeninas, incluso cuando se eliminaron todas las referencias de género del contexto clínico.
¿Qué Significa Esto para el Futuro de la IA en la Medicina?
Este estudio subraya la necesidad de auditar rigurosamente los modelos de lenguaje antes de implementarlos en entornos de atención médica. Marzyeh Ghassemi, profesora asociada en el MIT, advierte: “Este trabajo es una prueba sólida de que los modelos deben ser auditados antes de su uso en la atención médica, que es un entorno en el que ya se están utilizando”.
Conclusión: No Confíes Ciegamente en la IA
Si bien la IA tiene el potencial de transformar la atención médica, es crucial ser conscientes de sus limitaciones. No todos los LLM son iguales, y su precisión puede verse comprometida por factores tan simples como errores de formato o lenguaje informal. Como usuarios, debemos exigir transparencia y pruebas exhaustivas antes de confiar en estas herramientas para tomar decisiones críticas sobre nuestra salud. La tecnología avanza, pero la responsabilidad de verificar la información sigue siendo nuestra.
Fuente: MIT News – AI
Leave a Comment