Crise de la disponibilité des données : Les sites Web restreignent fortement l'accès

  • Ces restrictions compromettent la disponibilité de données d'entraînement de haute qualité.
  • D'importantes sources web restreignent fortement l'utilisation de leurs données pour le développement de modèles d'IA.

Eulerpool News·

Les constructeurs de systèmes IA performants se sont appuyés pendant des années sur d'énormes quantités de textes, d'images et de vidéos provenant d'Internet pour entraîner leurs modèles. Cependant, ces sources de données se tarissent désormais. Une étude récemment publiée par l'Initiative de Provenance des Données, dirigée par un groupe de recherche du renommé M.I.T., montre que de nombreuses sources web essentielles pour le développement de modèles IA ont considérablement restreint l'utilisation de leurs données au cours de l'année écoulée. Cette observation a été soutenue par l'analyse de 14 000 domaines web inclus dans trois ensembles de données d'entraînement couramment utilisés pour l'IA. L'enquête a révélé une "crise émergente dans le domaine du consentement", alors que les éditeurs et les plateformes en ligne prennent de plus en plus de mesures pour empêcher la collecte de leurs données. Les chercheurs estiment qu'environ 5 % de toutes les données et 25 % des données provenant des sources les plus qualitatives dans les trois ensembles de données – C4, RefinedWeb et Dolma – sont limitées. Ces restrictions sont mises en œuvre par le biais du Protocole d'Exclusion des Robots, une méthode utilisée depuis des décennies permettant aux propriétaires de sites web d'empêcher les bots automatisés de parcourir leurs pages. Concrètement, cela se fait par un fichier nommé robots.txt. De plus, jusqu'à 45 % des données de l'ensemble de données C4 sont restreintes par les conditions générales d'utilisation des sites web. Shayne Longpre, auteur principal de l'étude, souligne dans une interview : « Nous assistons à un rapide déclin du consentement à l'utilisation des données sur l'ensemble du Web. Cela aura des conséquences de grande envergure non seulement pour les entreprises d'IA, mais aussi pour les chercheurs, les scientifiques et les acteurs non commerciaux. »
EULERPOOL DATA & ANALYTICS

Make smarter decisions faster with the world's premier financial data

Eulerpool Data & Analytics