DeepSeek R1: ¿Un modelo de IA revolucionario entrenado por menos de 300,000 dólares?

La inteligencia artificial sigue avanzando a pasos agigantados, y la competencia global se intensifica día a día. En esta ocasión, la empresa china DeepSeek ha dado un golpe en la mesa al anunciar que logró entrenar su modelo de IA R1 por un costo sorprendentemente bajo: tan solo 294,000 dólares.

¿Un costo de entrenamiento realmente bajo?

Esta cifra contrasta enormemente con las estimaciones de empresas estadounidenses como OpenAI, cuyo CEO, Sam Altman, declaró en 2023 que el entrenamiento de modelos fundacionales superaba los 100 millones de dólares. Aunque OpenAI no ha proporcionado cifras detalladas, la diferencia es abismal.

La información sobre los costos de DeepSeek apareció en un artículo revisado por pares en la revista Nature. En el artículo se detalla que para el entrenamiento del modelo R1, enfocado en el razonamiento, se utilizaron 512 chips H800 de Nvidia.

¿Cómo logró DeepSeek reducir los costos?

La pregunta del millón es cómo DeepSeek consiguió esta eficiencia en costos. Los costos de entrenamiento de modelos de lenguaje grandes (LLM) incluyen el funcionamiento de clústeres de chips de alto rendimiento durante semanas o meses para procesar grandes cantidades de texto y código.

Parte de la respuesta podría estar en el acceso a hardware especializado. Si bien DeepSeek reconoce el uso de GPUs A100 en las fases iniciales, el entrenamiento final de R1 se realizó con chips H800 de Nvidia. Estos chips fueron diseñados específicamente para el mercado chino después de que Estados Unidos prohibiera la exportación a China de los chips A100 y H100 debido a preocupaciones de seguridad nacional.

Implicaciones y controversias

El anuncio de DeepSeek ha generado controversia. Funcionarios estadounidenses han expresado su preocupación sobre el acceso de la empresa a grandes volúmenes de chips H100, adquiridos después de la implementación de los controles de exportación. Nvidia, por su parte, ha aclarado que DeepSeek ha utilizado chips H800 adquiridos legalmente.

Más allá de la controversia, el logro de DeepSeek plantea interrogantes sobre la eficiencia en el desarrollo de IA y la competitividad de China en este campo. La posibilidad de entrenar modelos de IA a menor costo podría democratizar el acceso a esta tecnología y acelerar su desarrollo en diferentes áreas.

El futuro de la IA y la competencia global

El caso de DeepSeek es un claro indicador de que la carrera por la supremacía en la IA está lejos de definirse. La innovación, la eficiencia y el acceso a recursos clave serán determinantes para el futuro de esta tecnología y su impacto en el mundo. Estaremos atentos a los próximos movimientos de DeepSeek y al desarrollo de su modelo R1, así como a las respuestas de sus competidores en esta apasionante carrera.

Fuente: Expansión Tecnología