AI初创公司Anthropic被指控激进抓取网站数据

Eulerpool News

据相关方透露，人工智能初创公司Anthropic被指控为了训练其系统而从网站上主动抓取数据，可能违反了出版商的使用条款。

KI开发者依靠大量来自不同来源的数据来构建大型语言模型，这些模型为类似于OpenAI的ChatGPT和Anthropic的竞争对手Claude的聊天机器人技术提供支持。

Anthropic由前OpenAI研究人员创立，承诺开发“负责任”的人工智能系统。然而，Freelancer.com的首席执行官Matt Barrie指责这家总部位于旧金山的公司是“迄今为止对其Freelancer平台进行最具侵略性抓取”的公司，该平台每天有数百万的访问量。

其他网页出版商与Barrie一同担忧Anthropic大量抓取其网页并忽视其停止内容收集的指令。据Barrie称，Freelancer.com在短短四小时内便收到了350万次来自Anthropic关联Web抓取器的访问量。“这大约是第二名的五倍左右，”Barrie说。

通过这个机器人进行的访问继续增加，即使Freelancer.com试图通过标准协议拒绝访问。Barrie 随后决定阻止所有来自Anthropic的IP地址的流量。Barrie说：“我们不得不阻止他们，因为他们不遵守互联网规则。这种公然的抓取行为减慢了所有用户的网站速度，最终损害了我们的收入。”

Anthropic表示将调查此事件，并尊重出版商的请求，不做“侵入或干扰”的行为。

将公开可访问数据进行抓取通常是合法的，但可能违反网站的使用条款，并且对网站运营者来说代价高昂。iFixit.com的首席执行官凯尔·维恩斯表示，他的电子维修网站在24小时内收到了Anthropics机器人的一百万次访问。“我们有多个高流量警报，会在凌晨三点唤醒工作人员。此次抓取触发了我们所有的警报，”他说。

iFixit的使用条款禁止将其数据用于机器学习。“我对Anthropic的第一信息是：如果您用于训练您的模型，这是非法的。我的第二信息是：这不是礼貌的互联网行为。抓取数据是一个礼仪问题。”

网站使用 "robots.txt" 协议将爬虫和其他网络机器人排除在网站的某些区域之外，但这一措施依赖于自愿遵守。Anthropic 表示，其爬虫尊重诸如 CAPTCHA 等“反规避技术”，并且“我们的爬虫行为不应是侵入性或扰乱性的”。

过去两年由于人工智能军备竞赛，数据抓取显著增加，对网站运营者造成了新的成本。Read the Docs 文档托管网站的联合创始人Eric Holscher在一篇博客文章中写道：“人工智能爬虫给我们造成了大量的带宽费用，并占用了大量时间来处理滥用问题。”

Anthropic 已经创建了一些全球最先进的聊天机器人，与 OpenAI 的 ChatGPT 竞争，并将自己定位为一个道德参与者。Anthropic 的明确目标是“负责任地开发和维护先进的人工智能，以长期造福人类。”

在领先的人工智能公司开发更强大的模型的同时，他们深入到互联网未开发的角落，与出版商合作或创建合成训练数据。OpenAI 近几个月与 Reddit、The Atlantic 和 Financial Times 等出版商和内容提供商达成了多项交易。Anthropic 尚未公开宣布类似的合作伙伴关系。

„Suchmaschinen haben schon immer viel gescrapt“, sagte Barrie, „aber mit der Schulung generativer KI ist es auf ein ganz neues Level gestiegen.“
„搜索引擎一直在大量抓取数据,“ 巴里说，“但是随着生成型人工智能训练，它已经达到了一个全新的水平。”

iFixits使命是分享信息，鼓励人们进行自我修复。“我们并不反对他们将我们的内容用于模块培训，我们只希望参与对话，”Wiens说。“我不是这个问题的十字军战士，我只是试图保持网站在线。”

AI

AI初创公司Anthropic被指控激进抓取网站数据

一眼就能识别出被低估的股票。
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

新闻

蔚来公布第二季度亏损，但股价仍大幅上涨

C3.ai令投资者失望：尽管订阅收入疲软，营收仍增长

波音公司的Starliner准备返回地球：经历技术磨难后，无宇航员返回

英特尔面临不确定的未来：扭转计划岌岌可危

大众汽车加强节省措施：工厂关闭和裁员的威胁引发抵制

一眼就能识别出被低估的股票。 fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

新闻