Криза доступності даних: сайти сильно обмежують доступ

  • Ці обмеження підривають доступність якісних навчальних даних.
  • Важливі вебджерела значно обмежують використання своїх даних для розробки моделей штучного інтелекту.

Eulerpool News·

Будівельники потужних систем штучного інтелекту роками покладалися на величезні обсяги текстів, зображень і відео з Інтернету, щоб навчити свої моделі. Однак ці джерела даних тепер висихають. Недавнє дослідження Ініціативи з перевірки походження даних, очолюване дослідницькою групою престижного М.I.T., показує, що багато з найважливіших веб-джерел для розробки моделей ШІ минулого року значно обмежили використання своїх даних. Це спостереження підтверджене аналізом 14 000 веб-доменів, включених у три часто використовувані набори навчальних даних ШІ. Дослідження виявило "зростаючу кризу у сфері згоди", оскільки видавці та онлайн-платформи дедалі більше вживають заходів, щоб запобігти вилученню своїх даних. Дослідники оцінюють, що близько 5 відсотків усіх даних та 25 відсотків даних з найякісніших джерел у трьох наборах даних – C4, RefinedWeb і Dolma – обмежені. Ці обмеження реалізуються за допомогою Протоколу виключення роботів, методу, який використовується протягом десятиліть для того, щоб власники вебсайтів могли запобігти скануванню їхніх сторінок автоматизованими ботами. Конкретно це здійснюється через файл під назвою robots.txt. Додатково ускладнює ситуацію те, що до 45 відсотків даних у наборі даних C4 обмежені загальними умовами використання вебсайтів. Шейн Лонгпре, головний автор дослідження, підкреслює в інтерв'ю: «Ми спостерігаємо швидке зниження згоди на використання даних у всьому Інтернеті. Це матиме далекосяжні наслідки не лише для компаній, що займаються штучним інтелектом, але й для дослідників, науковців та некомерційних організацій».
EULERPOOL DATA & ANALYTICS

Make smarter decisions faster with the world's premier financial data

Eulerpool Data & Analytics