数据可用性危机：网站大幅限制访问

近年来，构建高性能人工智能系统的工程师们依靠互联网上大量的文本、图像和视频来训练他们的模型。然而，这些数据源目前正在枯竭。美国麻省理工学院（M.I.T.）一支研究团队牵头的数据来源倡议最近发表了一项研究，显示许多关键的人工智能模型开发网页源在过去一年中大幅限制了对其数据的使用。该发现是通过对三个常用的人工智能训练数据集中的14,000个网页域名进行分析得出的。该研究揭示了一个“许可危机”的初步迹象，因为出版商和在线平台越来越多地采取措施，防止他们的数据被抓取。研究人员估计，在C4、RefinedWeb和Dolma这三个数据集中，大约5%的所有数据和25%的高质量数据源的数据受到了限制。这些限制措施通过网站机器人排除协议（Robots Exclusion Protocol）实现，这是一种几乎使用了几十年的方法，网站所有者可以用它来防止自动化机器人抓取网页。具体来说，这通过名为robots.txt的文件执行。更难的是，根据网站的通用条款和条件，C4数据集中多达45%的数据受到了限制。该研究的主要作者Shayne Longpre在接受采访时强调：“我们看到整个网络对数据使用许可的快速减少。这不仅会对人工智能公司产生深远影响，也会影响到研究人员、科学家和非商业性实体。”

EULERPOOL DATA & ANALYTICS

Make smarter decisions faster with the world's premier financial data

Eulerpool Data & Analytics

Eulerpool News·

Make smarter decisions faster with the world's premier financial data

新

维京人新星J.J.麦卡锡遭遇挫折：康复中的决心

英伟达和字母表：在人工智能时代的巨头，价值各不相同

钢人队四分卫决策背后的故事

巴西对阵埃隆·马斯克：信息完整性之战升级

好市多提价：尽管会员费上涨，会员资格仍然值得

轮回公司以令人瞩目的季度数据大放异彩

唐纳德·特朗普与埃隆·马斯克：拟议合作以提高政府效率

特斯拉：预计在自动驾驶出租车日发布令人兴奋的消息

地区选举中的政治地震：德国选择党凯旋，加剧东西德争论

美国港口面临罢工威胁：工会发出最后通牒