数据可用性危机:网站大幅限制访问

  • 重要网络资源大幅限制其数据在人工智能模型开发中的使用。
  • 这些限制危及高质量训练数据的可用性。

Eulerpool News·

近年来,构建高性能人工智能系统的工程师们依靠互联网上大量的文本、图像和视频来训练他们的模型。然而,这些数据源目前正在枯竭。 美国麻省理工学院(M.I.T.)一支研究团队牵头的数据来源倡议最近发表了一项研究,显示许多关键的人工智能模型开发网页源在过去一年中大幅限制了对其数据的使用。该发现是通过对三个常用的人工智能训练数据集中的14,000个网页域名进行分析得出的。 该研究揭示了一个“许可危机”的初步迹象,因为出版商和在线平台越来越多地采取措施,防止他们的数据被抓取。研究人员估计,在C4、RefinedWeb和Dolma这三个数据集中,大约5%的所有数据和25%的高质量数据源的数据受到了限制。 这些限制措施通过网站机器人排除协议(Robots Exclusion Protocol)实现,这是一种几乎使用了几十年的方法,网站所有者可以用它来防止自动化机器人抓取网页。具体来说,这通过名为robots.txt的文件执行。 更难的是,根据网站的通用条款和条件,C4数据集中多达45%的数据受到了限制。该研究的主要作者Shayne Longpre在接受采访时强调:“我们看到整个网络对数据使用许可的快速减少。这不仅会对人工智能公司产生深远影响,也会影响到研究人员、科学家和非商业性实体。”
EULERPOOL DATA & ANALYTICS

Make smarter decisions faster with the world's premier financial data

Eulerpool Data & Analytics