AI-start-up Anthropic beschuldigd van het agressief scrapen van gegevens van websites

Web-uitgevers klagen: Ontwikkelaar verzamelt onrechtmatig inhoud voor AI-training en negeert verzoeken om te stoppen.

28-7-2024, 13:12
Eulerpool News 28 jul 2024, 13:12

Het AI-start-up Anthropic wordt beschuldigd van agressief scrapen van gegevens van websites om zijn systemen te trainen, waarbij mogelijk de gebruiksvoorwaarden van uitgevers worden geschonden, aldus betrokken partijen.

Here is the translation of the heading to Dutch:
"KI-ontwikkelaars vertrouwen op grote hoeveelheden gegevens uit verschillende bronnen om grote taalmodellen te maken die de technologie achter chatbots zoals OpenAI's ChatGPT en de concurrent Claude van Anthropic vormen.

Anthropic werd opgericht door voormalige OpenAI-onderzoekers en belooft "verantwoordelijke" KI-systemen te ontwikkelen. Desondanks beschuldigt Matt Barrie, CEO van Freelancer.com, het in San Francisco gevestigde bedrijf ervan "de veruit meest agressieve scraper" van zijn Freelancer-platform te zijn, dat miljoenen dagelijkse bezoeken registreert.

Andere webuitgevers delen Barries zorgen dat Anthropic hun sites overspoelt en hun instructies om te stoppen met het verzamelen van inhoud negeert. Volgens Barrie ontving Freelancer.com binnen vier uur 3,5 miljoen bezoeken van een met Anthropic verbonden webcrawler. "Dat is waarschijnlijk ongeveer vijf keer zoveel als de nummer twee," zei Barrie.

Bezoeken door deze bot namen verder toe, zelfs nadat Freelancer.com had geprobeerd toegang via standaardprotocollen te weigeren. Barrie besloot daarop al het verkeer van de IP-adressen van Anthropics te blokkeren. "We moesten ze blokkeren omdat ze zich niet aan de regels van het internet houden," zei Barrie. "Dit flagrante scrapen vertraagt de site voor alle gebruikers en schaadt uiteindelijk onze inkomsten.

Anthropic deelt mee de zaak te onderzoeken en respecteert de verzoeken van de uitgevers om niet 'intrusief of storend' te zijn.

Het scrapen van openbaar toegankelijke gegevens is over het algemeen legaal, maar kan de gebruiksvoorwaarden van websites schenden en kostbaar zijn voor de exploitanten.

iFixit’s gebruiksvoorwaarden verbieden het gebruik van hun gegevens voor machinaal leren. "Mijn eerste boodschap aan Anthropic is: als u dit gebruikt om uw model te trainen, is dat illegaal. Mijn tweede boodschap is: dit is geen beleefd internetgedrag. Crawlen is een kwestie van etiquette.

Websites gebruiken het protocol "robots.txt" om crawlers en andere webrobots van bepaalde delen van hun pagina's weg te houden, maar dit is gebaseerd op vrijwillige naleving. Anthropic zei dat hun crawlers "anti-omzeilingstechnologieën" zoals CAPTCHA's respecteren en dat "onze crawlers niet indringend of storend zouden moeten zijn".

Het gegevens-scrapen is in de afgelopen twee jaar dramatisch toegenomen door de KI-wapenwedloop, wat nieuwe kosten voor website-eigenaren heeft veroorzaakt. "KI-crawlers hebben ons aanzienlijke bandbreedtekosten bezorgd en veel tijd gekost om misbruik aan te pakken", schreef Eric Holscher, medeoprichter van de document-hostingsite Read the Docs, in een blogpost.

Anthropic heeft enkele van de wereldwijd meest geavanceerde chatbots gecreëerd die concurreren met OpenAI's ChatGPT, en positioneert zich als een ethische speler. Het verklaarde doel van Anthropic is de „verantwoordelijke ontwikkeling en het onderhoud van geavanceerde AI voor het lange termijn voordeel van de mensheid“.

Terwijl toonaangevende AI-bedrijven steeds krachtigere modellen ontwikkelen, dringen ze dieper door in onontgonnen hoeken van het internet, werken ze samen met uitgevers of maken ze synthetische trainingsgegevens. OpenAI heeft de afgelopen maanden meerdere deals gesloten met uitgevers en inhoudsaanbieders zoals Reddit, The Atlantic en de Financial Times. Anthropic heeft geen soortgelijke samenwerkingen openbaar gemaakt.

Zoekmachines hebben altijd al veel gescrapet", zei Barrie, "maar met de training van generatieve AI is het naar een heel nieuw niveau gestegen.

iFixits missie is om informatie te delen en mensen aan te moedigen om zelf reparaties uit te voeren. „We zijn er niet tegen dat ze onze inhoud gebruiken voor modeltraining, we willen gewoon deel uitmaken van het gesprek“, zei Wiens. „Ik ben geen kruisvaarder op dit gebied, ik probeer alleen een website online te houden.“

Doe de beste investeringen van je leven
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

Vanaf 2 € veiliggesteld

Nieuws