Tras la última noticia en la que varias discográficas presentaban una demanda contra empresas de IA por uso indebido de sus canciones, hoy el protagonista es otro gigante de internet, como es Reddit.
Es conocido el apetito voraz que tienen las empresas de Inteligencia Artificial por los datos, combustible necesario para entrenar a sus modelos, y una de las técnicas más comunes para obtenerlos es el web scraping, que consiste en extraer información pública de páginas web sin autorización de los creadores del contenido.
Reddit se ha plantado ante esta situación y ha anunciado medidas. La plataforma, famosa por albergar una multitud de conversaciones sobre una amplia gama de temas, implementará cambios significativos en su infraestructura. Específicamente, modificará el protocolo de exclusión del archivo robots.txt en las próximas semanas para restringir el acceso al contenido público a empresas que no cuenten con acuerdos formales con Reddit.
Esta acción tiene como objetivo proteger el contenido de Reddit de ser utilizado por actores no autorizados. Recientemente, gigantes tecnológicos como OpenAI, responsable de ChatGPT, y Google, creador de Gemini, han formalizado acuerdos con Reddit para acceder a su información. En resumen, sin un acuerdo formal, no se permitirá la recopilación de datos desde la plataforma.
Estos cambios reflejan una actualización en la Política de Contenido Público de Reddit. A pesar de las restricciones, Reddit sigue comprometido a proporcionar acceso a investigadores, académicos, moderadores y organizaciones como Internet Archive, que preserva contenido en línea.
En el panorama actual de la IA, la demanda de datos abarca no solo texto, sino también imágenes, música y vídeos. El web scraping ha sido una práctica extendida para alimentar modelos de IA con diversidad de contenido. Sin embargo, su uso plantea cuestiones éticas y legales sobre la propiedad y el acceso a estos datos. Empresas como OpenAI mencionan que utilizan contenido con licencia o disponible públicamente, aunque esto no siempre evita conflictos legales, como demandas por infracción de derechos de autor.