データアクセスの危機: ウェブサイトがアクセスを大幅に制限

強力なAIシステムの構築者たちは、彼らのモデルをトレーニングするために、何年もインターネット上の膨大な量のテキスト、画像、ビデオに頼ってきました。しかし、現在これらのデータソースは枯渇しつつあります。著名なM.I.T.の研究チームが主導するData Provenance Initiativeの最近の研究によると、AIモデル開発における主要なWebソースの多くが、過去1年間でデータ使用を大幅に制限していることが示されています。この観察結果は、一般的に使用される3つのAIトレーニングデータセットに含まれる14,000のWebドメインの分析によって裏付けられました。調査により、パブリッシャーやオンラインプラットフォームがデータの収集を防ぐための措置を強化していることから、「同意に関する危機」が浮上していることが明らかになりました。研究者たちは、C4、RefinedWeb、Dolmaの3つのデータセットにおいて、全データの約5%、および最も質の高いソースからのデータの25%が制限されていると推定しています。これらの制限は、Webサイト所有者が自動化されたボットによるクロールを阻止できる、数十年来の方法であるRobots Exclusion Protocolによって実施されています。具体的には、robots.txtというファイルによって行われます。さらに悪化させる要因として、C4データセットのデータの最大45%が、Webサイトの利用規約により制限されていることが挙げられます。研究の主著者であるShayne Longpre氏はインタビューで、「私たちは、Web全体でデータ使用許諾の急速な低下を目の当たりにしています。これはAI企業だけでなく、研究者、科学者、非営利団体にも広範な影響を及ぼすことになるでしょう」と強調します。

EULERPOOL DATA & ANALYTICS

Make smarter decisions faster with the world's premier financial data

Eulerpool Data & Analytics

Eulerpool News·

Make smarter decisions faster with the world's premier financial data

新着

国家元首の会談: スターマーとバイデンがホワイトハウスで会談

Here is the translation of the heading to Japanese: 労働市場の上昇 – 予測の誤りが連邦準備制度の議論を再燃させる

バイキングスの才能J.J.マッカーシーの挫折：リハビリにおける決意

NvidiaとAlphabet：AI時代の異なる価値を持つ巨人

スティーラーのクォーターバック選択の裏側

ブラジル対イーロン・マスク：情報の整合性をめぐる戦いが激化

コストコの価格引き上げ: 料金が上がっても会員になる価値はあるのか

サンサーラが印象的な四半期業績を発表

ドナルド・トランプとイーロン・マスク：政府の効率向上を目的とした協力を検討

テスラ：ロボタクシーの日の興味深い発表が期待される