Start-up de inteligencia artificial Anthropic acusado de raspar datos de sitios web de manera agresiva

Editores web se quejan: Desarrollador recopila contenidos sin autorización para entrenamiento de IA e ignora las solicitudes de detenerse.

28/7/2024, 13:12
Eulerpool News 28 jul 2024, 13:12

La startup de IA Anthropic es acusada de scrapeo agresivo de datos de sitios web para entrenar sus sistemas, posiblemente violando los términos de uso de los editores, según las partes afectadas.

Desarrolladores de IA dependen de grandes cantidades de datos de diversas fuentes para crear modelos de lenguaje extensos que constituyen la tecnología detrás de chatbots como ChatGPT de OpenAI y Claude, el competidor de Anthropic.

Anthropic fue fundada por antiguos investigadores de OpenAI y promete desarrollar sistemas de IA "responsables". Sin embargo, Matt Barrie, CEO de Freelancer.com, acusa a la empresa con sede en San Francisco de ser "con mucho el scraper más agresivo" de su plataforma de freelancers, que recibe millones de visitas diarias.

Otros editores web comparten las preocupaciones de Barrie de que Anthropic esté inundando sus sitios web e ignorando sus instrucciones de detener la recolección de contenidos. Según Barrie, Freelancer.com recibió 3.5 millones de visitas de un webcrawler vinculado a Anthropic en un lapso de cuatro horas. "Eso es probablemente alrededor de cinco veces más que el número dos", dijo Barrie.

Las visitas a través de este bot aumentaron, incluso después de que Freelancer.com intentara denegar el acceso mediante protocolos estándar. Barrie decidió entonces bloquear todo el tráfico de las direcciones IP de Anthropics. "Tuvimos que bloquearlas porque no respetan las normas de Internet", dijo Barrie. "Este scraping flagrante ralentiza el sitio para todos los usuarios y, en última instancia, perjudica nuestros ingresos.

Anthropic anunció que investigaría el caso y respetaría las solicitudes de los editores de no ser "intrusivos o molestos".

El scrapping de datos de acceso público es generalmente legal, pero puede violar los términos de uso de los sitios web y ser costoso para los operadores de los sitios. Kyle Wiens, CEO de iFixit.com, dijo que su sitio de reparación de electrónica recibió un millón de accesos de los bots de Anthropics en 24 horas. "Tenemos muchas alarmas para alto tráfico de datos que despiertan a la gente a las 3 de la mañana. Esto activó todas nuestras alarmas," dijo.

Las condiciones de uso de iFixit prohíben el uso de sus datos para el aprendizaje automático. "Mi primer mensaje para Anthropic es: Si utilizan esto para entrenar su modelo, es ilegal. Mi segundo mensaje es: Esto no es un comportamiento cortés en Internet. El crawling es una cuestión de etiqueta.

Las páginas web utilizan el protocolo "robots.txt" para mantener a los rastreadores y otros robots web fuera de ciertas áreas de sus sitios, aunque esto se basa en el cumplimiento voluntario. Anthropic dijo que sus rastreadores respetan las "tecnologías anti-circunvención" como CAPTCHAs y que "nuestro rastreo no debería ser intrusivo o perturbador".

El scraping de datos ha aumentado dramáticamente en los últimos dos años debido a la carrera armamentista de la IA, lo que ha causado nuevos costos para los operadores de sitios web. "Los rastreadores de IA nos han causado costos significativos de ancho de banda y han consumido mucho tiempo en el manejo del abuso", escribió Eric Holscher, cofundador del sitio de alojamiento de documentos Read the Docs, en una entrada de blog.

Antropic ha creado algunos de los chatbots más avanzados del mundo, que compiten con ChatGPT de OpenAI, y se posiciona como un actor ético. El objetivo declarado de Antropic es el "desarrollo y mantenimiento responsables de la IA avanzada para el beneficio a largo plazo de la humanidad".

Mientras las principales empresas de IA desarrollan modelos cada vez más potentes, se adentran en rincones inexplorados de Internet, cooperan con editores o crean datos de entrenamiento sintéticos. En los últimos meses, OpenAI ha cerrado varios acuerdos con editores y proveedores de contenido como Reddit, The Atlantic y Financial Times. Anthropic no ha anunciado públicamente asociaciones similares.

„Las máquinas de búsqueda siempre han recopilado muchos datos“, dijo Barrie, „pero con el entrenamiento de la IA generativa, ha alcanzado un nivel completamente nuevo.“

La misión de iFixit es compartir información para animar a las personas a realizar auto-reparaciones. "No estamos en contra de que utilicen nuestros contenidos para la formación de modelos, solo queremos ser parte de la conversación", dijo Wiens. "No soy un cruzado en este tema, solo intento mantener un sitio web en funcionamiento.

Reconoce acciones infravaloradas de un vistazo.
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

Suscripción por 2 € / mes

Noticias