データアクセスの危機: ウェブサイトがアクセスを大幅に制限

  • この制約は高品質な訓練データの利用可能性を脅かします。
  • 重要なウェブソースがAIモデル開発のためのデータ利用を厳しく制限している。

Eulerpool News·

強力なAIシステムの構築者たちは、彼らのモデルをトレーニングするために、何年もインターネット上の膨大な量のテキスト、画像、ビデオに頼ってきました。しかし、現在これらのデータソースは枯渇しつつあります。 著名なM.I.T.の研究チームが主導するData Provenance Initiativeの最近の研究によると、AIモデル開発における主要なWebソースの多くが、過去1年間でデータ使用を大幅に制限していることが示されています。この観察結果は、一般的に使用される3つのAIトレーニングデータセットに含まれる14,000のWebドメインの分析によって裏付けられました。 調査により、パブリッシャーやオンラインプラットフォームがデータの収集を防ぐための措置を強化していることから、「同意に関する危機」が浮上していることが明らかになりました。研究者たちは、C4、RefinedWeb、Dolmaの3つのデータセットにおいて、全データの約5%、および最も質の高いソースからのデータの25%が制限されていると推定しています。 これらの制限は、Webサイト所有者が自動化されたボットによるクロールを阻止できる、数十年来の方法であるRobots Exclusion Protocolによって実施されています。具体的には、robots.txtというファイルによって行われます。 さらに悪化させる要因として、C4データセットのデータの最大45%が、Webサイトの利用規約により制限されていることが挙げられます。研究の主著者であるShayne Longpre氏はインタビューで、「私たちは、Web全体でデータ使用許諾の急速な低下を目の当たりにしています。これはAI企業だけでなく、研究者、科学者、非営利団体にも広範な影響を及ぼすことになるでしょう」と強調します。
EULERPOOL DATA & ANALYTICS

Make smarter decisions faster with the world's premier financial data

Eulerpool Data & Analytics