AI-стартиращата компания Anthropic е обвинена в агресивно изтегляне на данни от уебсайтове

Eulerpool News 28.07.2024 г., 13:12 ч.

Стартиращата компания за изкуствен интелект Anthropic е обвинена в агресивно извличане на данни от уебсайтове за обучение на своите системи, като възможно нарушава условията за ползване на издателите, според засегнати страни.

Разработчиците на ИИ разчитат на големи количества данни от различни източници, за да създават големи езикови модели, които съставляват технологията зад чатботове като ChatGPT на OpenAI и конкурентите на Anthropic — Claude.

Антропик беше основана от бивши изследователи на OpenAI и обещава да разработва „отговорни“ AI системи. Въпреки това, Мат Бари, изпълнителен директор на Freelancer.com, обвинява базираната в Сан Франциско компания, че е „безспорно най-агресивният скреипър“ на неговата платформа за фрийлансъри, която отчита милиони посещения ежедневно.

Други уеб издатели споделят опасенията на Бари, че компанията Anthropic залива техните страници и игнорира техните инструкции да спрат събирането на съдържание. Според Бари Freelancer.com е получил 3,5 милиона посещения от уебкроулер, свързан с Anthropic, в рамките на четири часа. „Това е вероятно около пет пъти повече от втория“, каза Бари.

Посещенията от този бот продължаваха да се увеличават, дори след като Freelancer.com се опита да ограничи достъпа чрез стандартни протоколи. Бари реши да блокира целия трафик от IP адресите на Anthropics. „Трябваше да ги блокираме, защото те не спазват правилата на интернет“, каза Бари. „Това грубо изстъргване забавя сайта за всички потребители и в крайна сметка влияе негативно на приходите ни.“

Anthropic съобщи, че разследва случая и уважава исканията на издателите да не бъде „натрапчив или обезпокоителен“.

Извличането на публично достъпни данни обикновено е законно, но може да наруши условията за ползване на уебсайтове и да бъде скъпо за собствениците на сайтове. Кайл Уинс, главен изпълнителен директор на iFixit.com, каза, че неговият сайт за ремонт на електроника е получил един милион посещения от роботите на Anthropics в рамките на 24 часа. „Имаме много аларми за висок трафик на данни, които събуждат хората в 3 часа сутринта. Това задейства всичките ни аларми“, каза той.

Условията за ползване на iFixit забраняват използването на техните данни за машинно обучение. „Моето първо послание към Anthropic е: Ако използвате това за обучение на вашия модел, това е незаконно. Моето второ послание е: Това не е учтиво интернет поведение. Кроулингът е въпрос на етикет.“

Уебсайтовете използват протокола „robots.txt“, за да държат страниците си извън обсега на роботи за обхождане и други уеброботите, което зависи от доброволното спазване. Антропик заяви, че неговите роботи за обхождане уважават „антиобиколни технологии“ като CAPTCHA и че „нашето обхождане не трябва да бъде интрузивно или разрушително“.

Scrapen-ът на данни се увеличи драматично през последните две години заради надпреварата в изкуствения интелект, предизвиквайки нови разходи за операторите на уебсайтове. „AI-Crawler-ите ни причиниха значителни разходи за честотна лента и изискваха много време за справяне с злоупотребите“, написа Ерик Холшер, съосновател на сайта за хостинг на документация Read the Docs, в блог пост.

Антропик е създал някои от най-напредналите чатботове в света, които конкурират ChatGPT на OpenAI, и се позиционира като етичен играч. Изявената цел на Антропик е „отговорното разработване и поддръжка на напреднал ИИ за дългосрочна полза на човечеството“.

Докато водещите компании в областта на изкуствения интелект разработват все по-мощни модели, те навлизат по-дълбоко в непроучените ъгли на интернет, си сътрудничат с издатели или създават синтетични тренировъчни данни. OpenAI сключи няколко сделки с издатели и доставчици на съдържание като Reddit, The Atlantic и Financial Times през последните месеци. Anthropic не е обявява публично подобни партньорства.

„Suchmaschinen haben schon immer viel gescrapt“, sagte Barrie, „aber mit der Schulung generativer KI ist es auf ein ganz neues Level gestiegen.“
Сервизите за търсене винаги са остъргвали много информация, каза Бари, но с обучението на генериращия изкуствен интелект, това е достигнало ново ниво.

Мисията на iFixit е да споделя информация, за да насърчи хората да извършват самостоятелни ремонти. „Нямаме нищо против те да използват нашето съдържание за обучителни модели, просто искаме да бъдем част от разговора“, каза Виенс. "Не съм кръстоносец по тази тема, просто се опитвам да поддържам сайта онлайн.

AI-стартиращата компания Anthropic е обвинена в агресивно изтегляне на данни от уебсайтове

Легендарни инвеститори залагат на Eulerpool.

Новини

Мерц планове за пандемията: Правителството иска масово да ограничи свободата на словото

Lufthansa-дъщерна компания Swiss в преход – заплашва ли сега съкращаване на работни места?

BYD изненадва с луксозен SUV – акциите рязко се покачват след слаб старт

Papата критикува бонуса от милиарди на Илон Мъск - символ на нарастващото неравенство

Dax започва на плюс – инвеститорите насочват поглед към решението на Фед за лихвите