Les modèles d'IA : Entre le manque de données et les opportunités d'innovation

  • Innovations en intelligence artificielle incarnée et données du monde réel pourraient apporter de nouvelles percées.
  • La contamination des données pourrait ralentir le développement des modèles d'IA.

Eulerpool News·

Les modèles IA génératifs, considérés comme des prodiges de la technologie moderne, font face à des défis significatifs en raison de la contamination des données et du risque imminent de dégradation de leur propre qualité. Ces "hallucinations" de l'IA, où des événements historiques fictifs, des personnes inexistantes et des théories scientifiques erronées sont générés, soulèvent des questions quant à la fiabilité et à la viabilité de ces systèmes extrêmement coûteux. Une étude récemment publiée dans "Nature" met en lumière les risques de la contamination des données lors de la formation des systèmes IA et le potentiel d'effondrement des modèles. Des chercheurs ont découvert que les modèles IA génératifs actuels recourent de plus en plus à des données synthétiques, ce qui pourrait compromettre l'intégrité des ensembles de données d'entraînement. "L'utilisation indiscriminée de contenus générés par modèle conduit à des défauts irréversibles", avertit l'équipe de chercheurs dirigée par Ilia Shumailov de l'Université d'Oxford. Cette vulnérabilité des modèles rappelle l'image mythique du serpent Ouroboros, qui se mange la queue. Ainsi, la vitesse de développement des IA génératives pourrait ralentir, car les données de haute qualité deviennent de plus en plus rares. Epoch AI prévoit que les 300 000 milliards de jetons de textes publics générés par des humains actuellement disponibles pourraient être épuisés d'ici 2028. Néanmoins, les modèles antérieurs développés sur des données non contaminées pourraient bénéficier d'un avantage concurrentiel. Cela pourrait augmenter la valeur des données humaines fraîches et générées en privé, attirant l'attention des éditeurs. Les dangers théoriques d'un effondrement des modèles ne sont pas nouveaux, mais l'utilisation sélective des données synthétiques reste précieuse. Les chercheurs doivent cependant investir beaucoup plus de temps et d'argent dans la purification de leurs ensembles de données. Un pionnier dans ce domaine est la plateforme Hugging Face, qui développe des ensembles d'entraînement hautement curatés et de petits modèles linguistiques dans des domaines spécifiques tels que la médecine et la science. Malgré les restrictions croissantes sur les modèles IA génératifs, la révolution de l'IA reste en bonne voie. Un accent accru pourrait être mis sur des domaines de recherche en IA adjacents qui ont jusqu'à présent été négligés. Les avancées dans l'IA incarnée, comme dans les robots et les véhicules autonomes, pourraient ouvrir de nouvelles perspectives. La cognitive scientifique Alison Gopnik souligne que la technologie robotique, qui n'est pas limitée aux informations d'internet mais utilise des données du monde réel, pourrait être cruciale pour le développement de la véritable intelligence. Tout comme l'intelligence biologique a émergé des océans primitifs il y a longtemps, nos modèles IA génératifs les plus récents pourraient encore beaucoup apprendre des simples vers et éponges qui ont fait les premiers pas vers la vie intelligente il y a plus d'un demi-milliard d'années.
EULERPOOL DATA & ANALYTICS

Make smarter decisions faster with the world's premier financial data

Eulerpool Data & Analytics