Криза доступності даних: сайти сильно обмежують доступ

Ці обмеження підривають доступність якісних навчальних даних.
Важливі вебджерела значно обмежують використання своїх даних для розробки моделей штучного інтелекту.

Eulerpool News·
19.07.2024

Будівельники потужних систем штучного інтелекту роками покладалися на величезні обсяги текстів, зображень і відео з Інтернету, щоб навчити свої моделі. Однак ці джерела даних тепер висихають. Недавнє дослідження Ініціативи з перевірки походження даних, очолюване дослідницькою групою престижного М.I.T., показує, що багато з найважливіших веб-джерел для розробки моделей ШІ минулого року значно обмежили використання своїх даних. Це спостереження підтверджене аналізом 14 000 веб-доменів, включених у три часто використовувані набори навчальних даних ШІ. Дослідження виявило "зростаючу кризу у сфері згоди", оскільки видавці та онлайн-платформи дедалі більше вживають заходів, щоб запобігти вилученню своїх даних. Дослідники оцінюють, що близько 5 відсотків усіх даних та 25 відсотків даних з найякісніших джерел у трьох наборах даних – C4, RefinedWeb і Dolma – обмежені. Ці обмеження реалізуються за допомогою Протоколу виключення роботів, методу, який використовується протягом десятиліть для того, щоб власники вебсайтів могли запобігти скануванню їхніх сторінок автоматизованими ботами. Конкретно це здійснюється через файл під назвою robots.txt. Додатково ускладнює ситуацію те, що до 45 відсотків даних у наборі даних C4 обмежені загальними умовами використання вебсайтів. Шейн Лонгпре, головний автор дослідження, підкреслює в інтерв'ю: «Ми спостерігаємо швидке зниження згоди на використання даних у всьому Інтернеті. Це матиме далекосяжні наслідки не лише для компаній, що займаються штучним інтелектом, але й для дослідників, науковців та некомерційних організацій».

EULERPOOL DATA & ANALYTICS

Make smarter decisions faster with the world's premier financial data

Eulerpool Data & Analytics

Новий

16 жовт. 2024 р.

Sure, here's the translation of the heading into Ukrainian: "NVIDIA у центрі уваги: основні моменти портфоліо Джима Крамера та потенціал технологічних акцій

16 жовт. 2024 р.

Криза доступності даних: сайти сильно обмежують доступ

Eulerpool News·
19.07.2024

Make smarter decisions faster with the world's premier financial data

Новий

Sure, here's the translation of the heading into Ukrainian: "NVIDIA у центрі уваги: основні моменти портфоліо Джима Крамера та потенціал технологічних акцій

Інвестиції Трампа в гольф у Шотландії: суперечлива картина

Проєкт JUNO у Китаї: У пошуках маси нейтрино

Нові міста у Великій Британії: рай для ощадливих покупців нерухомості

Несподіване падіння курсу: витік інформації ASML сколихнув напівпровідникову галузь

Інвестиції чи заощадження? - Виклики для британської фінансової політики

Перспективні акції малих компаній: можливості на 2025 рік

Кредитна установа Credit Agricole інвестує в китайський ринок електромобільності.

Goldman Sachs перевершує очікування: сильне зростання в третьому кварталі 2024 року

Акції ASML під тиском: розчаровуючі результати за третій квартал кидають тінь на ринок напівпровідників

Криза доступності даних: сайти сильно обмежують доступ

Eulerpool News·19.07.2024

Make smarter decisions faster with the world's premier financial data

Новий

Eulerpool News·
19.07.2024