L'entreprise de démarrage d'IA Anthropic accusée de scraper des données de sites web de manière agressive.

Les éditeurs web se plaignent : un développeur collecte des contenus sans autorisation pour l'entraînement de l'IA et ignore les demandes d'arrêt.

28/07/2024 13:12
Eulerpool News 28 juil. 2024, 13:12

La start-up d'IA Anthropic est accusée de scrapper agressivement les données des sites web pour entraîner ses systèmes, violant potentiellement les conditions d'utilisation des éditeurs, selon les parties concernées.

Les développeurs d'IA s'appuient sur de grandes quantités de données provenant de diverses sources pour créer de grands modèles linguistiques qui constituent la technologie derrière les chatbots tels que ChatGPT d'OpenAI et Claude, le concurrent d'Anthropic.

Anthropic a été fondée par d'anciens chercheurs d'OpenAI et promet de développer des systèmes d'IA "responsables". Pourtant, Matt Barrie, PDG de Freelancer.com, accuse l'entreprise basée à San Francisco d'être "le scraper de loin le plus agressif" de sa plateforme de freelances, qui enregistre des millions de visites quotidiennes.

D'autres éditeurs web partagent les préoccupations de Barrie selon lesquelles Anthropic inonde leurs sites et ignore leurs instructions d'arrêter la collecte de contenu. Selon Barrie, Freelancer.com a reçu 3,5 millions de visites d'un webcrawler lié à Anthropic en quatre heures. "C'est probablement environ cinq fois plus que le numéro deux", a déclaré Barrie.

Les visites de ce bot ont continué à augmenter, même après que Freelancer.com a essayé de refuser l'accès en utilisant des protocoles standard. Barrie a donc décidé de bloquer tout le trafic des adresses IP d'Anthropic. « Nous avons dû les bloquer parce qu'ils ne respectaient pas les règles d'Internet », a déclaré Barrie. « Ce scraping flagrant ralentit le site pour tous les utilisateurs et affecte finalement nos revenus. »

Anthropic a annoncé qu'il enquêterait sur l'affaire et respecterait les demandes des éditeurs de ne pas être « intrusif ou perturbateur ».

Le scraping des données accessibles au public est généralement légal, mais peut violer les conditions d'utilisation des sites web et être coûteux pour les opérateurs de sites. Kyle Wiens, PDG de iFixit.com, a déclaré que son site de réparation électronique avait reçu un million de visites des bots d'Anthropic en 24 heures. « Nous avons beaucoup d'alarmes pour le trafic élevé qui réveillent les gens à 3 heures du matin. Cela a déclenché toutes nos alarmes », a-t-il dit.

Les conditions d'utilisation d'iFixit interdisent l'utilisation de leurs données pour l'apprentissage automatique. "Mon premier message à Anthropic est : si vous utilisez cela pour entraîner votre modèle, c'est illégal. Mon deuxième message est : ce n'est pas un comportement correct sur Internet. Le crawling est une question d'étiquette.

Les sites web utilisent le protocole "robots.txt" pour empêcher les crawlers et autres robots web d'accéder à certaines parties de leurs pages, mais cela repose sur le respect volontaire. Anthropic a déclaré que ses crawlers respectent les "technologies anti-contournement" telles que les CAPTCHAs et que "notre crawling ne devrait pas être intrusif ou perturbateur".

Le scraping de données a considérablement augmenté au cours des deux dernières années en raison de la course à l'IA, ce qui a entraîné de nouveaux coûts pour les exploitants de sites web. « Les robots d'indexation d'IA nous ont causé des coûts significatifs en bande passante et ont demandé beaucoup de temps pour gérer les abus », a écrit Eric Holscher, cofondateur du site d'hébergement de documents Read the Docs, dans un article de blog.

Anthropic a créé certains des chatbots les plus avancés au monde, rivalisant avec ChatGPT d'OpenAI, et se positionne comme un acteur éthique. L'objectif déclaré d'Anthropic est le "développement et la maintenance responsables d'une IA avancée pour le bénéfice à long terme de l'humanité".

Alors que les principales entreprises d'IA développent des modèles de plus en plus performants, elles pénètrent plus profondément dans des recoins inexplorés d'Internet, coopèrent avec des éditeurs ou créent des données de formation synthétiques. OpenAI a conclu plusieurs accords avec des éditeurs et des fournisseurs de contenu comme Reddit, The Atlantic et le Financial Times au cours des derniers mois. Anthropic n'a pas annoncé publiquement de partenariats similaires.

« Les moteurs de recherche ont toujours beaucoup aspiré de données », a déclaré Barrie, « mais avec la formation de l'IA générative, cela a atteint un tout autre niveau. »

La mission d'iFixit est de partager des informations pour encourager les gens à effectuer leurs propres réparations. « Nous ne sommes pas contre le fait qu'ils utilisent nos contenus pour la formation de modèles, nous voulons juste faire partie de la conversation », a déclaré Wiens. « Je ne suis pas un croisé sur ce sujet, j'essaie juste de maintenir un site web en ligne. »

Reconnaissez les actions sous-évaluées en un coup d'œil.
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

Abonnement pour 2 € / mois

Nouvelles