AI-startup Anthropic oskarżony o agresywne zeskrobywanie danych ze stron internetowych

Eulerpool News 28 lip 2024, 13:12

Start-up AI Anthropic oskarżony o agresywne zbieranie danych z stron internetowych w celu trenowania swoich systemów, co może naruszać warunki użytkowania wydawców, według poszkodowanych stron.

Twórcy sztucznej inteligencji polegają na dużych ilościach danych z różnych źródeł, aby tworzyć duże modele językowe, które stanowią technologię stojącą za chatbotami takimi jak ChatGPT od OpenAI i konkurenci Claude od Anthropic.

Anthropic zostało założone przez byłych badaczy OpenAI i obiecuje tworzyć „odpowiedzialne” systemy sztucznej inteligencji. Mimo to Matt Barrie, dyrektor generalny Freelancer.com, oskarża firmę z siedzibą w San Francisco o bycie „zdecydowanie najbardziej agresywnym scraperem” jego platformy freelancerskiej, która notuje miliony odwiedzin dziennie.

Inni wydawcy internetowi podzielają obawy Barrie, że Anthropic zalewa ich strony i ignoruje ich instrukcje dotyczące zaprzestania zbierania treści. Według Barrie, Freelancer.com otrzymał w ciągu czterech godzin 3,5 miliona wizyt od powiązanego z Anthropic webcrawlera. „To prawdopodobnie około pięć razy więcej niż numer dwa,” powiedział Barrie.

Odwiedziny tego bota nadal rosły, nawet po próbie odmowy dostępu za pomocą standardowych protokołów przez Freelancer.com. W związku z tym Barrie zdecydował się zablokować cały ruch z adresów IP Anthropics. „Musieliśmy ich zablokować, ponieważ nie przestrzegają zasad internetu”, powiedział Barrie. „To rażące zeskrobywanie spowalnia stronę dla wszystkich użytkowników i ostatecznie wpływa negatywnie na nasze dochody.”

Anthropic poinformowało, że bada sprawę i szanuje prośby wydawców, aby nie być „natarczywym lub uciążliwym”.

Wyszukiwanie ogólnie dostępnych danych jest zazwyczaj legalne, może jednak naruszać warunki użytkowania stron internetowych i być kosztowne dla ich właścicieli. Kyle Wiens, dyrektor generalny iFixit.com, powiedział, że jego strona napraw elektronicznych otrzymała w ciągu 24 godzin milion odsłon od botów Anthropics. „Mamy wiele alarmów związanych z dużym przepływem danych, które budzą ludzi o 3 nad ranem. To uruchomiło wszystkie nasze alarmy”, powiedział.

Zasady użytkowania iFixit zabraniają wykorzystywania ich danych do uczenia maszynowego. „Moja pierwsza wiadomość do Anthropic brzmi: jeśli używacie tego do szkolenia swojego modelu, jest to nielegalne. Moja druga wiadomość brzmi: To nie jest grzeczne zachowanie w internecie. Crawling jest kwestią etykiety.“

Strony internetowe używają protokołu „robots.txt”, aby powstrzymać crawlery i inne roboty internetowe od dostępu do określonych obszarów swoich stron, co jednak opiera się na dobrowolnym przestrzeganiu zasad. Anthropic powiedział, że jego crawlery respektują „technologie przeciw omijaniu zabezpieczeń” takie jak CAPTCHAs i że „nasze crawlery nie powinny być uciążliwe ani zakłócające”.

Skrobanie danych dramatycznie wzrosło w ciągu ostatnich dwóch lat z powodu wyścigu zbrojeń w dziedzinie AI, co spowodowało nowe koszty dla operatorów stron internetowych. „Crawlery AI naraziły nas na znaczne koszty związane z przepustowością i pochłonęły wiele czasu na radzenie sobie z nadużyciami”, napisał Eric Holscher, współzałożyciel strony do hostowania dokumentów Read the Docs, w wpisie na blogu.

Anthropic stworzył jedne z najbardziej zaawansowanych chatbotów na świecie, które konkurują z ChatGPT OpenAI, i pozycjonuje się jako etyczny gracz. Celem Anthropic jest „odpowiedzialny rozwój i utrzymanie zaawansowanej AI na długoterminową korzyść ludzkości”.

Während führende KI-Unternehmen immer leistungsfähigere Modelle entwickeln, dringen sie tiefer in unerschlossene Ecken des Internets vor, kooperieren mit Publishern oder erstellen synthetische Trainingsdaten. OpenAI hat in den letzten Monaten mehrere Deals mit Publishern und Inhaltsanbietern wie Reddit, The Atlantic und der Financial Times abgeschlossen. Anthropic hat keine ähnlichen Partnerschaften öffentlich bekanntgegeben.

Podczas gdy wiodące firmy AI opracowują coraz bardziej zaawansowane modele, wnikają głębiej w nieodkryte zakątki internetu, współpracują z wydawcami lub tworzą syntetyczne dane treningowe. OpenAI w ostatnich miesiącach zawarło kilka umów z wydawcami i dostawcami treści, takimi jak Reddit, The Atlantic oraz Financial Times. Anthropic nie ogłosił publicznie podobnych partnerstw.

„Suchmaschinen haben schon immer viel gescrapt“, sagte Barrie, „aber mit der Schulung generativer KI ist es auf ein ganz neues Level gestiegen.“

iFixits Mission ist es, Informationen zu teilen, um Menschen zur Selbstreparatur zu ermutigen. „Wir sind nicht dagegen, dass sie unsere Inhalte zur Modellschulung verwenden, wir möchten nur Teil des Gesprächs sein“, sagte Wiens. „Ich bin kein Kreuzritter in diesem Thema, ich versuche nur, eine Website online zu halten.“

Misją iFixit jest dzielenie się informacjami, aby zachęcić ludzi do samodzielnej naprawy. „Nie jesteśmy przeciwni wykorzystaniu naszych treści do szkolenia modelowego, chcemy tylko być częścią rozmowy”, powiedział Wiens. „Nie jestem krzyżowcem w tej kwestii, po prostu próbuję utrzymać stronę internetową.”

AI-startup Anthropic oskarżony o agresywne zeskrobywanie danych ze stron internetowych

Rozpoznaj niedowartościowane akcje jednym spojrzeniem.
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

Wiadomości

Grünes Licht für MSC-Deal im Hamburger Hafen: Stadt verkauft fast 50 Prozent der HHLA ==> Zielone światło dla umowy MSC w porcie Hamburg: miasto sprzedaje prawie 50 procent HHLA

Byli członkowie zarządu Wirecard skazani na odszkodowanie w wysokości 140 milionów euro

NIO zgłasza stratę w drugim kwartale, a akcje mimo to wyraźnie rosną.

C3.ai rozczarowuje inwestorów: wzrost przychodów pomimo słabnących dochodów z subskrypcji

Starliner Boeinga przed powrotem na Ziemię: Bez astronautów po technicznej odysei