AI-Start-up Anthropic süüdistatakse veebisaitide andmete agressiivses kogumises

Eulerpool News 28. juuli 2024, 13:12

Das KI-Start-up Anthropic wird beschuldigt, Daten von Webseiten aggressiv zu scrapen, um seine Systeme zu trainieren und dabei möglicherweise die Nutzungsbedingungen der Publisher zu verletzen, so betroffene Parteien.

Tehisintellekti idufirma Anthropicit süüdistatakse veebisaitidelt andmete agressiivses kogumises oma süsteemide treenimiseks ning väidetavalt kirjastajate kasutustingimuste rikkumises, väidavad mõjutatud osapooled.

Here is the translated heading in Estonian:
"Tehisintellekti arendajad tuginevad suurele hulgale andmetele erinevatest allikatest, et luua suuremaid keelemudeleid, mis moodustavad tehnoloogia selliste vestlusrobotite nagu OpenAI ChatGPT ja Anthropic’u konkurent Claude taga.

Anthropic loodi endiste OpenAI teadlaste poolt ja lubab välja arendada "vastutustundlikud" tehisintellektisüsteemid. Siiski süüdistab Freelancer.com tegevjuht Matt Barrie San Franciscos asuvat ettevõtet oma vabakutseliste platvormi, millel on miljoneid igapäevaseid külastusi, kõige agressiivsema kaapijana.

Teised veebikirjastajad jagavad Barrie muret, et Anthropic ujutab nende lehti üle ja eirab nende juhiseid, et lõpetada sisu kogumine. Barrie sõnul sai Freelancer.com nelja tunni jooksul 3,5 miljonit külastust Anthropicuga seotud veebirobotilt. "See on tõenäoliselt umbes viis korda rohkem kui teine number," ütles Barrie.

Külastused selle roboti kaudu suurenesid endiselt, isegi pärast seda, kui Freelancer.com püüdis juurdepääsu standardprotokollide abil keelata. Seejärel otsustas Barrie blokeerida kogu liikluse Anthropics'i IP-aadressidelt. "Me pidime nad blokeerima, sest nad ei järgi interneti reegleid," ütles Barrie. "See jõhker andmete koorimine aeglustab lehe kõigi kasutajate jaoks ja mõjutab lõpuks meie tulusid.

Anthropic teatas, et uurib juhtumit ja austab kirjastajate taotlusi mitte olla „pealetükkiv või häiriv“.

Avalikult kättesaadavate andmete kraapimine on üldiselt seaduslik, kuid võib rikkuda veebisaitide kasutustingimusi ja olla lehekülje haldajatele kulukas. Kyle Wiens, iFixit.com tegevjuht, ütles, et tema elektroonikaremondi leht sai 24 tunni jooksul miljon külastust Anthropicsi botidelt. "Meil on palju häireid suure andmeliikluse kohta, mis äratavad inimesi öösel kell kolm. See käivitas kõik meie häired," ütles ta.

iFixiti kasutustingimused keelavad nende andmete kasutamise masinõppe jaoks. "Minu esimene sõnum Anthropicule on, et kui kasutate seda oma mudeli koolitamiseks, on see ebaseaduslik. Minu teine sõnum on: see pole viisakas internetikäitumine. Roomamine on etiketiküsimus.

Veebilehed kasutavad protokolli „robots.txt“, et hoida roomikud ja teised vebirobotid oma lehtede teatud piirkondadest eemal, kuid see põhineb vabatahtlikul järgimisel. Anthropic ütles, et nende roomikud austavad „vastumeetmete tehnoloogiaid“, nagu CAPTCHA-d, ja et „meie roomamine ei tohiks olla pealetükkiv ega häiriv“.

Andmete kraapimine on KI-võidurelvastumise tõttu viimase kahe aasta jooksul dramaatiliselt kasvanud, põhjustades veebilehtede haldajatele uusi kulusid. "KI-roomikud on meile tekitanud märkimisväärseid ribalaiuse kulusid ja nõudnud palju aega kuritarvitamisega tegelemiseks," kirjutas Eric Holscher, dokumendi majutamise saidi Read the Docs kaasasutaja, blogipostituses.

Anthropic on loonud mõned maailma kõige arenenumad vestlusrobotid, konkureerides OpenAI ChatGPT-ga, ning positsioneerib end eetilise tegutsejana. Anthropici deklareeritud eesmärk on "arendada ja hooldada arenenud tehisintellekti vastutustundlikult inimkonna pikaajaliseks hüvanguks".

Kui juhtivad tehisintellekti-ettevõtted arendavad aina võimsamaid mudeleid, tungivad nad sügavamale interneti kasutamata aladesse, teevad koostööd kirjastajatega või loovad sünteetilisi treeningandmeid. OpenAI on viimastel kuudel sõlminud mitu lepingut kirjastajate ja sisupakkujatega, nagu Reddit, The Atlantic ja The Financial Times. Anthropic pole sarnaseid partnerlussuhteid avalikult teada andnud.

„Otsingumootorid on alati palju kaapinud,“ ütles Barrie, „aga generatiivse tehisintellekti treenimisega on see täiesti uuele tasemele tõusnud.“

iFixiti missioon on jagada teavet, et julgustada inimesi ise remonti tegema. „Me ei ole vastu sellele, et kasutatakse meie sisu mudelõppeks, me tahame lihtsalt olla osa vestlusest,“ ütles Wiens. „Ma ei ole selles küsimuses ristisõdija, ma püüan lihtsalt veebisaiti töös hoida.“

AI-Start-up Anthropic süüdistatakse veebisaitide andmete agressiivses kogumises

Tee oma elu parimad investeeringud
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

Uudised

Tee oma elu parimad investeeringud fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

Uudised

Tee oma elu parimad investeeringud
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news