AI

AI-startup Anthropic je obviněn z agresivního scrapingu dat z webových stránek

Webové vydavatelé si stěžují: Vývojář neoprávněně sbírá obsah pro školení umělé inteligence a ignoruje výzvy k zastavení.

Eulerpool News 28. 7. 2024 13:12

Das KI-Start-up Anthropic wird beschuldigt, Daten von Webseiten aggressiv zu scrapen, um seine Systeme zu trainieren und dabei möglicherweise die Nutzungsbedingungen der Publisher zu verletzen, so betroffene Parteien.

Czech Translation:
Start-up Anthropic zabývající se umělou inteligencí je obviněno z agresivního scrapování dat z webových stránek za účelem trénování svých systémů, čímž může porušovat podmínky užívání vydavatelů, tvrdí postižené strany.

KI- vývojáři spoléhají na velké množství dat z různých zdrojů, aby vytvořili velké jazykové modely tvořící technologii za chatboty jako ChatGPT od OpenAI a konkurenty Claude od Anatomics.

Anthropic byl založen bývalými výzkumníky OpenAI a slibuje vývoj "zodpovědných" systémů umělé inteligence. Nicméně Matt Barrie, generální ředitel Freelancer.com, obviňuje tuto společnost se sídlem v San Francisku, že je „zdaleka nejagresivnějším scraperem“ jeho platformy pro freelancery, která zaznamenává miliony návštěv denně.

Jiní weboví vydavatelé sdílejí Barrieho obavy, že Anthropic zaplavuje jejich stránky a ignoruje jejich pokyny zastavit shromažďování obsahu. Podle Barrieho obdržel Freelancer.com během čtyř hodin 3,5 milionu návštěv od webového prohledávače spojeného s Anthropicem. „To je pravděpodobně asi pětkrát více než číslo dvě,“ řekl Barrie.

Návštěvy tohoto bota se nadále zvyšovaly, i poté, co se Freelancer.com pokusil odepřít přístup pomocí standardních protokolů. Barrie se poté rozhodl zablokovat veškerý provoz z IP adres Anthropics. „Museli jsme je zablokovat, protože nedodržovali pravidla internetu,“ řekl Barrie. „Toto flagrantní scraping zpomaluje web pro všechny uživatele a nakonec ovlivňuje naše příjmy.“

Anthropic oznámil, že případ vyšetřuje a respektuje žádosti vydavatelů, aby nebyli „vlezlí nebo rušiví“.

Scrapování veřejně dostupných dat je obecně legální, může však porušovat podmínky užívání webových stránek a být pro jejich provozovatele nákladné. Kyle Wiens, generální ředitel iFixit.com, řekl, že jeho stránka pro opravy elektroniky obdržela během 24 hodin milion přístupů od robotů společnosti Anthropics. „Máme mnoho alarmů pro vysoký datový provoz, které budí lidi ve 3 hodiny ráno. Toto spustilo všechny naše alarmy,“ řekl.

iFixits podmínky používání zakazují používání jejich dat pro strojové učení. „Má první zpráva pro Anthropic zní: Pokud to používáte k trénování vašeho modelu, je to nezákonné. Má druhá zpráva je: Toto není zdvořilé chování na internetu. Crawling je otázkou etikety.“

Webové stránky využívají protokol „robots.txt“ k tomu, aby zabránily prohledávačům a dalším webovým robotům přístup do určitých částí svých stránek, což je však založeno na dobrovolném dodržování. Anthropic uvedl, že jeho prohledávače respektují „technologie proti obcházení“ jako jsou CAPTCHA a že „naše prohledávání by nemělo být dotěrné nebo rušivé“.

Scrapování dat se v posledních dvou letech dramaticky zvýšilo kvůli závodům ve vývoji umělé inteligence, což způsobilo nové náklady pro provozovatele webových stránek. „AI-crawlery nám způsobily značné náklady na šířku pásma a spotřebovaly mnoho času na řešení zneužití,“ napsal Eric Holscher, spoluzakladatel dokumentárního hostingového serveru Read the Docs, na svém blogu.

Anthropic hat einige der weltweit fortschrittlichsten Chatbots geschaffen, die OpenAIs ChatGPT Konkurrenz machen, und positioniert sich als ethischer Akteur. Das erklärte Ziel von Anthropic ist die „verantwortungsbewusste Entwicklung und Wartung fortschrittlicher KI zum langfristigen Nutzen der Menschheit“.

Anthropic vytvořil některé z nejpokročilejších chatbotů na světě, které konkurují ChatGPT od OpenAI, a profiluje se jako etický hráč. Prohlášeným cílem společnosti Anthropic je „odpovědný vývoj a údržba pokročilé AI pro dlouhodobý prospěch lidstva“.

Zatímco vedoucí společnosti v oblasti umělé inteligence vyvíjejí stále výkonnější modely, pronikají hlouběji do neprobádaných koutů internetu, spolupracují s vydavateli nebo vytvářejí syntetická tréninková data. OpenAI v posledních měsících uzavřelo několik dohod s vydavateli a poskytovateli obsahu jako Reddit, The Atlantic a Financial Times. Anthropic neoznámil žádná podobná partnerství.

„Suchmaschinen haben schon immer viel gescrapt“, sagte Barrie, „aber mit dem Training generativer KI ist es auf ein ganz neues Level gestiegen.“

Translation to Czech:
„Vyhledávače vždy hodně scrapovaly,“ řekl Barrie, „ale s tréninkem generativní AI se to dostalo na zcela novou úroveň.“

Posláním iFixit je sdílet informace a povzbuzovat lidi k samostatné opravě. „Nemáme nic proti tomu, aby naše materiály používali při školení modelů, chceme být jen součástí rozhovoru,“ řekl Wiens. „Nejsem žádný křižák v této věci, snažím se jen udržet web online.“

Udělej nejlepší investice svého života
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

Za 2 eura si zabezpečte

Novinky