AI

Стартап в области ИИ Anthropic обвинен в агрессивном скрапинге данных с веб-сайтов

Веб-издатели жалуются: разработчик незаконно собирает контент для обучения ИИ и игнорирует требования о прекращении.

Eulerpool News 28 июл. 2024 г., 13:12

Стартап Anthropic, занимающийся ИИ, обвиняется в агрессивном скрейпинге данных с веб-сайтов для обучения своих систем и, возможно, нарушении условий использования издателей, по словам пострадавших сторон.

Разработчики ИИ полагаются на большие объемы данных из различных источников для создания больших языковых моделей, которые являются основой технологий, стоящих за чат-ботами, такими как ChatGPT от OpenAI и конкурентами от Anthropic, такими как Claude.

Anthropic была основана бывшими исследователями OpenAI и обещает разрабатывать "ответственные" ИИ-системы. Тем не менее, Мэтт Барри, генеральный директор Freelancer.com, обвиняет компанию, базирующуюся в Сан-Франциско, в том, что она является «самым агрессивным скрепером» его платформы для фрилансеров, которая насчитывает миллионы ежедневных посещений.

Другие веб-издатели разделяют опасения Барри, что Anthropic затопляет их сайты и игнорирует их инструкции остановить сбор контента. По словам Барри, Freelancer.com получил 3,5 миллиона посещений за четыре часа от веб-краулера, связанного с Anthropic. «Это, вероятно, примерно в пять раз больше, чем у второй по посещаемости платформы», – сказал Барри.

Посещения этим ботом продолжали увеличиваться, даже после того как Freelancer.com попытался заблокировать доступ с помощью стандартных протоколов. Барри решил полностью заблокировать весь трафик с IP-адресов Anthropics. «Мы вынуждены были их заблокировать, потому что они не соблюдают правила интернета», - сказал Барри. «Это явное скрейпинг замедляет работу сайта для всех пользователей и в конечном итоге уменьшает наши доходы.»

Anthropic сообщила, что расследует случай и уважает запросы издателей, стремясь не быть «навязчивыми или раздражающими».

Сбор открытых данных в целом легален, но может нарушать условия использования веб-сайтов и быть затратным для их владельцев. "Мы получили миллион запросов от ботов Anthropics в течение 24 часов", - сказал Кайл Виэнс, генеральный директор iFixit.com, его сайта по ремонту электроники. "Мы настроили много сигналов для высокого трафика, которые будят людей в 3 часа ночи. Это вызвало все наши сигналы тревоги", - отметил он.

Условия использования iFixit запрещают использование их данных для машинного обучения. «Мое первое сообщение для Anthropic: если вы используете это для обучения своей модели, это незаконно. Мое второе сообщение: это не вежливое поведение в Интернете. Вопрос о краулинге касается этикета.»

Веб-сайты используют протокол «robots.txt», чтобы не допускать краулеров и других веб-роботов к определённым областям своих страниц, что, однако, основано на добровольном соблюдении. Anthropic заявила, что её краулеры уважают «технологии противодействия обходу» вроде CAPTCHA и что «наше краулирование не должно быть навязчивым или разрушительным».

Скрапинг данных резко возрос за последние два года из-за гонки вооружений в области ИИ, что привело к новым затратам для владельцев веб-сайтов. «ИИ-краулеры нанесли нам значительные расходы на пропускную способность и отняли много времени на борьбу с злоупотреблениями», — написал Эрик Хольшер, соучредитель сайта для хостинга документации Read the Docs, в своем блоге.

Anthropic создала одних из самых передовых чат-ботов в мире, конкурирующих с ChatGPT от OpenAI, и позиционирует себя как этический игрок. Заявленная цель Anthropic — «ответственная разработка и поддержка передового ИИ для долгосрочной пользы человечества».

В то время как ведущие компании в области ИИ разрабатывают всё более мощные модели, они проникают в неосвоенные уголки Интернета, сотрудничают с издателями или создают синтетические тренировочные данные. OpenAI за последние месяцы заключила несколько сделок с издателями и поставщиками контента, такими как Reddit, The Atlantic и Financial Times. Anthropic не объявляла о подобных партнёрствах.

«Поисковые системы всегда много собирали данные», — сказал Барри, — «но с обучением генеративного ИИ это вышло на совершенно новый уровень».

Миссия iFixit - делиться информацией, чтобы побудить людей к самостоятельному ремонту. «Мы не против того, чтобы они использовали наши материалы для обучения моделям, мы просто хотим быть частью разговора», - сказал Виенс. «Я не крестоносец в этом вопросе, я просто пытаюсь держать сайт в рабочем состоянии».

Определите недооцененные акции за один взгляд.
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

Подписка за 2 € / месяц

Новости