Reddit vs. las IA: Guerra por los datos históricos de la web

La batalla por los datos en la era de la inteligencia artificial se intensifica. Reddit ha decidido plantar cara a las empresas de IA que, según la plataforma, están extrayendo datos de su sitio web sin la debida autorización. La medida más reciente: limitar el acceso de Internet Archive a la información de Reddit.

¿Qué está pasando? Reddit vs. Wayback Machine

Reddit está harta de que las empresas de IA utilicen sus contenidos para entrenar modelos sin pagar por ello. Para evitarlo, ha bloqueado parcialmente el acceso de Internet Archive, la organización detrás de la famosa Wayback Machine.

¿Qué es Wayback Machine? Es una herramienta que permite navegar por versiones antiguas de sitios web, como una máquina del tiempo de Internet. Su misión es preservar la historia digital de la web.

El objetivo: proteger los datos de los usuarios de Reddit

Según Tim Rathschmidt, portavoz de Reddit, la decisión se basa en que algunas empresas de IA están infringiendo las políticas de la plataforma y extrayendo datos de Wayback Machine.

Reddit busca proteger la privacidad de sus usuarios y el contenido que publican. Muchos usuarios eliminan sus publicaciones después de un tiempo, ya sea porque han recibido la ayuda que necesitaban o simplemente porque ya no desean que esa información esté disponible públicamente. La indexación por parte de Wayback Machine dificulta este “derecho al olvido”.

¿Qué implica esta limitación?

Internet Archive ya no podrá indexar la gran mayoría de la información de Reddit. Esto significa que Wayback Machine no podrá rastrear páginas de detalles de publicaciones, comentarios ni perfiles de usuario. Solo podrá archivar la página principal de Reddit.com, capturando los titulares y las publicaciones más populares de cada día.

No es la primera vez: Reddit y la IA

Esta no es la primera vez que Reddit toma medidas contra las empresas de IA. Ya en el pasado, la plataforma cortó el acceso a herramientas de extracción de datos y llegó a acuerdos con algunas empresas para proporcionarles datos a cambio de una compensación económica. De hecho, se sabe que Google ha pagado a Reddit por el acceso a sus datos para entrenar sus modelos de IA.

Además, Reddit acusó a Anthropic de usar sus datos para entrenar su IA más de 100.000 veces después de haber dicho que habían dejado de hacerlo.

¿El futuro de los datos en la web?

La decisión de Reddit marca un precedente importante en la forma en que se gestionan los datos en la web y cómo las empresas de IA acceden a ellos. La batalla por el control de la información continúa, y Reddit ha decidido tomar las riendas para proteger a sus usuarios y su contenido.

¿Veremos a otras plataformas seguir el ejemplo de Reddit? Solo el tiempo lo dirá.

Fuente: Genbeta