Криза в наличността на данни: Уебсайтовете силно ограничават достъпа

  • Тези ограничения застрашават наличието на висококачествени тренировъчни данни.
  • Важни уеб източници силно ограничават използването на техните данни за разработка на ИИ модели.

Eulerpool News·

Строителите на мощни AI системи години наред разчитаха на огромни количества текстове, изображения и видеоклипове от интернет, за да обучават своите модели. Въпреки това, тези източници на данни вече започват да се изчерпват. Наскоро публикувано изследване на Data Provenance Initiative, ръководено от изследователска група от престижния M.I.T., показва, че много от основните уеб източници за развитие на AI модели през изминалата година значително са ограничили използването на своите данни. Това наблюдение е потвърдено чрез анализ на 14 000 уеб домейна, съдържащи се в три често използвани AI тренировъчни набора от данни. Изследването разкрива възникваща "криза на съгласието", тъй като публицисти и онлайн платформи все по-често предприемат мерки за предотвратяване на събирането на техните данни. Изследователите оценяват, че около 5 процента от всички данни и 25 процента от данните от най-качествените източници в трите набора - C4, RefinedWeb и Dolma - са ограничени. Тези ограничения се прилагат чрез Robots Exclusion Protocol, метод, използван от десетилетия, с който собствениците на уебсайтове могат да предотвратят автоматизирани ботове да обходят техните страници. Конкретно това се осъществява чрез файл с име robots.txt. Допълнителен фактор, затрудняващ ситуацията, е, че до 45 процента от данните в набора C4 са ограничени чрез общите условия на уебсайтовете. Shayne Longpre, главен автор на изследването, подчертава в интервю: „Наблюдаваме бърз спад на съгласието за използване на данни в целия интернет. Това ще има далечни последици не само за AI компаниите, но и за изследователи, учени и неправителствени организации.“
EULERPOOL DATA & ANALYTICS

Make smarter decisions faster with the world's premier financial data

Eulerpool Data & Analytics