AI

AI初创公司Anthropic被指控激进抓取网站数据

网络出版商抱怨:开发者未经授权收集内容用于人工智能训练,并无视停止指令。

Eulerpool News

据相关方透露,人工智能初创公司Anthropic被指控为了训练其系统而从网站上主动抓取数据,可能违反了出版商的使用条款。

KI开发者依靠大量来自不同来源的数据来构建大型语言模型,这些模型为类似于OpenAI的ChatGPT和Anthropic的竞争对手Claude的聊天机器人技术提供支持。

Anthropic由前OpenAI研究人员创立,承诺开发“负责任”的人工智能系统。然而,Freelancer.com的首席执行官Matt Barrie指责这家总部位于旧金山的公司是“迄今为止对其Freelancer平台进行最具侵略性抓取”的公司,该平台每天有数百万的访问量。

其他网页出版商与Barrie一同担忧Anthropic大量抓取其网页并忽视其停止内容收集的指令。据Barrie称,Freelancer.com在短短四小时内便收到了350万次来自Anthropic关联Web抓取器的访问量。“这大约是第二名的五倍左右,”Barrie说。

通过这个机器人进行的访问继续增加,即使Freelancer.com试图通过标准协议拒绝访问。Barrie 随后决定阻止所有来自Anthropic的IP地址的流量。Barrie说:“我们不得不阻止他们,因为他们不遵守互联网规则。这种公然的抓取行为减慢了所有用户的网站速度,最终损害了我们的收入。”

Anthropic表示将调查此事件,并尊重出版商的请求,不做“侵入或干扰”的行为。

将公开可访问数据进行抓取通常是合法的,但可能违反网站的使用条款,并且对网站运营者来说代价高昂。iFixit.com的首席执行官凯尔·维恩斯表示,他的电子维修网站在24小时内收到了Anthropics机器人的一百万次访问。“我们有多个高流量警报,会在凌晨三点唤醒工作人员。此次抓取触发了我们所有的警报,”他说。

iFixit的使用条款禁止将其数据用于机器学习。“我对Anthropic的第一信息是:如果您用于训练您的模型,这是非法的。我的第二信息是:这不是礼貌的互联网行为。抓取数据是一个礼仪问题。”

网站使用 "robots.txt" 协议将爬虫和其他网络机器人排除在网站的某些区域之外,但这一措施依赖于自愿遵守。Anthropic 表示,其爬虫尊重诸如 CAPTCHA 等“反规避技术”,并且“我们的爬虫行为不应是侵入性或扰乱性的”。

过去两年由于人工智能军备竞赛,数据抓取显著增加,对网站运营者造成了新的成本。Read the Docs 文档托管网站的联合创始人Eric Holscher在一篇博客文章中写道:“人工智能爬虫给我们造成了大量的带宽费用,并占用了大量时间来处理滥用问题。”

Anthropic 已经创建了一些全球最先进的聊天机器人,与 OpenAI 的 ChatGPT 竞争,并将自己定位为一个道德参与者。Anthropic 的明确目标是“负责任地开发和维护先进的人工智能,以长期造福人类。”

在领先的人工智能公司开发更强大的模型的同时,他们深入到互联网未开发的角落,与出版商合作或创建合成训练数据。OpenAI 近几个月与 Reddit、The Atlantic 和 Financial Times 等出版商和内容提供商达成了多项交易。Anthropic 尚未公开宣布类似的合作伙伴关系。

„Suchmaschinen haben schon immer viel gescrapt“, sagte Barrie, „aber mit der Schulung generativer KI ist es auf ein ganz neues Level gestiegen.“
„搜索引擎一直在大量抓取数据,“ 巴里说,“但是随着生成型人工智能训练,它已经达到了一个全新的水平。”

iFixits使命是分享信息,鼓励人们进行自我修复。“我们并不反对他们将我们的内容用于模块培训,我们只希望参与对话,”Wiens说。“我不是这个问题的十字军战士,我只是试图保持网站在线。”

一眼就能识别出被低估的股票。
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

订阅费为2欧元/月

新闻