AI

AIスタートアップAnthropic、ウェブサイトからのデータスクレーピングで非難される

Web-Publisher klagen: Entwickler sammelt unbefugt Inhalte zur KI-Training und ignoriert Aufforderungen zum Stopp.

Webパブリッシャーの訴え:開発者が無断で内容を収集し、AIトレーニングに使用し、停止要求を無視している。

Eulerpool News

以下の見出しを日本語に翻訳してください:
「KIスタートアップのAnthropicがシステムをトレーニングするためにウェブサイトのデータを積極的にスクレイピングし、パブリッシャーの利用規約に違反する可能性があると関係者が非難しています。」

KI-開発者は、OpenAIのChatGPTやAnthropicのClaudeなどのチャットボットの背後にある技術を構築するために、さまざまなソースからの大量のデータに依存しています。

Anthropicは元OpenAIの研究者によって設立され、「責任ある」AIシステムの開発を約束しています。それにもかかわらず、Freelancer.comのCEOであるマット・バリー氏は、サンフランシスコに拠点を置く同社を「これまでで最も攻撃的なスクレイパー」であると非難しています。同社のフリーランサープラットフォームは、毎日数百万の訪問があります。

他のWebパブリッシャーは、Anthropicが彼らのサイトに殺到し、コンテンツの収集を停止する指示を無視しているというBarrieの懸念を共有している。Barrieによると、Freelancer.comはAnthropicと関連するウェブクローラーから4時間以内に350万回の訪問を受けたという。「これはおそらく、2位の約5倍の量だ」とBarrieは述べた。

このボットによる訪問がFreelancer.comが標準プロトコルでアクセスを拒否しようとした後も増加し続けました。バリーはその後、AnthropicのIPアドレスからのすべてのトラフィックをブロックすることを決定しました。「彼らがインターネットのルールを守らないため、ブロックせざるを得なかった」とバリーは言いました。「このあからさまなスクレイピングは、すべてのユーザーにとってサイトを遅くし、最終的には我々の収益に悪影響を及ぼします。」

Anthropicは、事例を調査し、出版社の「侵入的または迷惑にならないように」という要望を尊重すると伝えました。

公開されているデータのスクレイピングは一般的に合法だが、サイトの利用規約に違反する可能性があり、サイト運営者にとってコストがかかることがある。iFixit.comのCEOであるKyle Wiensは、自身の電子機器修理サイトがAnthropicsのボットから24時間以内に100万アクセスを受けたと語った。「データトラフィックが高い時にアラームが多く鳴り、午前3時に人々が目を覚ますこともあります。これがすべてのアラームを引き起こしました」と彼は述べた。

iFixitの利用規約はデータの機械学習への使用を禁止しています。「私のAnthropicへの第一のメッセージは、これをモデルのトレーニングに使用することは違法ですということです。第二のメッセージは、これは礼儀正しいインターネット行動ではないということです。クローリングはエチケットの問題です。」

Webseiten nutzen das Protokoll „robots.txt“, um Crawler und andere Webroboter von bestimmten Bereichen ihrer Seiten fernzuhalten, was jedoch auf freiwilliger Einhaltung beruht. Anthropic sagte, seine Crawler respektieren „anti-circumvention technologies“ wie CAPTCHAs und dass „unser Crawling nicht intrusiv oder störend sein sollte“.

ウェブサイトは、クローラーや他のウェブロボットを特定の領域から締め出すために「robots.txt」プロトコルを使用しますが、これは任意の遵守に基づいています。Anthropicは、同社のクローラーがCAPTCHAなどの「回避防止技術」を尊重し、「私たちのクロールは侵入的または邪魔にならないはずだ」と述べました。

データスクレイピングは、AIの軍拡競争の結果、過去2年間で劇的に増加し、ウェブサイト運営者に新たなコストをもたらしました。「AIクローラーは私たちに大幅な帯域幅のコストを引き起こし、乱用への対処に多くの時間を要しました」と、ドキュメントホスティングサイトRead the Docsの共同創設者であるEric Holscher氏はブログ投稿で書いています。

Anthropicは、OpenAIのChatGPTに対抗する世界で最も進んだチャットボットのいくつかを作成し、倫理的なプレーヤーとしての地位を築いています。Anthropicの明示された目標は、「人類の長期的な利益のために先進的なAIを責任を持って開発および維持する」ことです。

以下の見出しを日本語に翻訳します:

主要なAI企業がますます強力なモデルを開発する中、これらの企業はインターネットの未開拓の領域に深く進出し、出版社と協力したり、合成トレーニングデータを作成したりしています。OpenAIは過去数か月でReddit, The Atlantic, Financial Timesなどの出版社やコンテンツプロバイダーとの複数の契約を締結しました。Anthropicは同様のパートナーシップを公開していません。

「検索エンジンはこれまでも多くのスクレイピングを行ってきました」とバリー氏は言いました。「しかし、生成AIの訓練により、それは全く新しいレベルに達しました。」

iFixitsの使命は、情報を共有して自己修理を促すことです。「私たちは彼らがモデルトレーニングに私たちのコンテンツを使用することに反対していません。単に会話の一部になりたいだけです」とWiens氏は言いました。「私はこの問題についてのクルセイダーではありません。ただ、ウェブサイトをオンラインに保持しようとしているだけです。」

一目で過小評価された株を認識します。
fair value · 20 million securities worldwide · 50 year history · 10 year estimates · leading business news

2ユーロ/月の定期購読

ニュース