En el mundo de la inteligencia artificial, es común observar un ciclo de entusiasmo inicial seguido de una creciente frustración. Nuevos modelos de IA como Gemini 2.5 Pro o Claude 3.5, lanzados con bombos y platillos, rápidamente conquistan a la comunidad tech gracias a sus capacidades superiores. Sin embargo, al poco tiempo, los usuarios más experimentados comienzan a notar una preocupante disminución en su rendimiento. Lo que antes se lograba fácilmente a través de chatbots o APIs, ahora se convierte en una tarea ardua y llena de errores.
¿Modelos ‘Súper Rotos’? El caso de Gemini
Gemini 2.5 Pro, por ejemplo, fue aclamado por su velocidad, costo accesible, amplia ventana de contexto y destreza en programación. No obstante, no tardaron en surgir quejas en plataformas como Reddit, describiéndolo como un modelo “inutilizable”. Algunos usuarios reportaron que, después de un desempeño sobresaliente entre marzo y junio, el modelo comenzó a generar “absolutas tonterías” a finales de julio. Otros mostraron evidencia de comportamientos molestos, como respuestas incompletas o errores constantes.
No es solo Google: Claude también bajo la lupa
Aunque estos ejemplos recientes se centran en la IA de Google, modelos tan elogiados como Claude también han enfrentado críticas similares, especialmente en su versión Claude Code. La comunidad de desarrolladores ha expresado su decepción ante la aparente pérdida de calidad y eficiencia.
La Sospecha: ¿Modelos Recortados?
Ante esta situación, muchos usuarios sospechan que las compañías están implementando versiones “recortadas” de sus modelos de IA. La teoría es que, para reducir costos y manejar la demanda en momentos de alta concurrencia, se utilizan versiones destiladas de los modelos, sacrificando inteligencia y recursos. Ian Nuttal, desarrollador, lamentó la degradación de Claude Code, afirmando que pagaría por una versión estable y de alto rendimiento, incluso en horas pico. Alex Finn, otro desarrollador, compartió su frustración: “Esto me ha pasado con TODAS las herramientas de programación de IA que he usado”.
Más que una Sensación: Evidencia Empírica
En 2023, la comunidad ya había notado un declive en el rendimiento de GPT-4, el modelo más avanzado de OpenAI en ese momento. Aunque la compañía negó las acusaciones, un estudio académico realizado por expertos de Berkeley y Stanford demostró una caída significativa en la precisión de GPT-4 entre marzo y junio de 2023. En programación, el porcentaje de respuestas directamente ejecutables se desplomó del 52% al 10%. Otros estudios confirmaron esta pérdida de calidad entre las versiones de diciembre y mayo.
OpenAI y Anthropic Reconocen Problemas
En diciembre de 2023, OpenAI admitió haber recibido comentarios sobre la creciente “vaguedad” de su asistente. Aunque afirmaron no haber actualizado el modelo recientemente y negaron intencionalidad, reconocieron el problema y explicaron que el comportamiento del modelo podía ser impredecible. Algunos usuarios incluso idearon métodos curiosos para motivar al modelo, como prometerle una propina o explicarle que no tenían dedos para escribir código.
Más recientemente, Anthropic reconoció a TechCrunch problemas en Claude Code, incluyendo tiempos de respuesta más lentos. Estas admisiones confirman las sospechas de muchos usuarios y plantean interrogantes sobre las prácticas de las empresas de IA.
¿Optimización o Degeneración?
La pregunta clave es si esta degradación es una consecuencia inevitable de la optimización de recursos, o si las compañías están sacrificando calidad en aras de la rentabilidad. Cualquiera que sea la razón, la experiencia de los usuarios y la evidencia empírica sugieren que algo está cambiando en el rendimiento de las IAs. Estaremos atentos a cómo evoluciona este debate y qué medidas toman las empresas para abordar las preocupaciones de la comunidad.
Fuente: Xataka
Leave a Comment