Криза в наличността на данни: Уебсайтовете силно ограничават достъпа

Тези ограничения застрашават наличието на висококачествени тренировъчни данни.
Важни уеб източници силно ограничават използването на техните данни за разработка на ИИ модели.

Eulerpool News·
19.07.2024 г.

Строителите на мощни AI системи години наред разчитаха на огромни количества текстове, изображения и видеоклипове от интернет, за да обучават своите модели. Въпреки това, тези източници на данни вече започват да се изчерпват. Наскоро публикувано изследване на Data Provenance Initiative, ръководено от изследователска група от престижния M.I.T., показва, че много от основните уеб източници за развитие на AI модели през изминалата година значително са ограничили използването на своите данни. Това наблюдение е потвърдено чрез анализ на 14 000 уеб домейна, съдържащи се в три често използвани AI тренировъчни набора от данни. Изследването разкрива възникваща "криза на съгласието", тъй като публицисти и онлайн платформи все по-често предприемат мерки за предотвратяване на събирането на техните данни. Изследователите оценяват, че около 5 процента от всички данни и 25 процента от данните от най-качествените източници в трите набора - C4, RefinedWeb и Dolma - са ограничени. Тези ограничения се прилагат чрез Robots Exclusion Protocol, метод, използван от десетилетия, с който собствениците на уебсайтове могат да предотвратят автоматизирани ботове да обходят техните страници. Конкретно това се осъществява чрез файл с име robots.txt. Допълнителен фактор, затрудняващ ситуацията, е, че до 45 процента от данните в набора C4 са ограничени чрез общите условия на уебсайтовете. Shayne Longpre, главен автор на изследването, подчертава в интервю: „Наблюдаваме бърз спад на съгласието за използване на данни в целия интернет. Това ще има далечни последици не само за AI компаниите, но и за изследователи, учени и неправителствени организации.“

EULERPOOL DATA & ANALYTICS

Make smarter decisions faster with the world's premier financial data

Eulerpool Data & Analytics

Ново

7.09.2024 г.

Криза в наличността на данни: Уебсайтовете силно ограничават достъпа

Eulerpool News·
19.07.2024 г.

Make smarter decisions faster with the world's premier financial data

Ново

Среща на държавниците: Стармър и Байдън се срещат в Белия дом

Нагоре на трудовия пазар – Неправилни прогнози възраждат дискусии във Федералния резерв

Неуспех за таланта на Викингите Дж. Дж. МакКарти: Решителност в рехабилитацията

Nvidia и Alphabet: гиганти в ерата на изкуствения интелект с различни ценности

Решението на Стилърс за въпроса с куотърбека: Поглед зад кулисите

Бразилия срещу Илон Мъск: Ескалация на борбата за информационна интегритет

Ценово увеличение при Costco: Защо членството си заслужава въпреки повишените такси

„Samsara блести с впечатляващи тримесечни резултати“

Доналд Тръмп и Илон Мъск: Обмисля се сътрудничество за повишаване на ефективността на правителството

Here is the translation of the heading to Bulgarian: Tesla: Очакват се вълнуващи разкрития на Деня на роботаксито

Криза в наличността на данни: Уебсайтовете силно ограничават достъпа

Eulerpool News·19.07.2024 г.

Make smarter decisions faster with the world's premier financial data

Ново

Eulerpool News·
19.07.2024 г.