Table des matières
Saviez-vous que l’intelligence artificielle pourrait sombrer dans l’absurde en se nourrissant de ses propres données ? Découvrez comment ce phénomène inquiétant, appelé autophagie des données, menace l’avenir de la technologie IA.
Les modèles d’intelligence artificielle comme ChatGPT sont devenus célèbres pour leur capacité à générer du contenu en réponse à des requêtes en langage naturel. Cependant, des études révèlent qu’en s’alimentant en données produites par d’autres IA, ces modèles commencent à produire des réponses de plus en plus incohérentes. Cette autophagie des données est une préoccupation majeure pour la communauté scientifique.
En effet, les outils d’intelligence artificielle générative nécessitent une immense quantité de données pour être efficaces. Or, le web, source principale de ces données, est de plus en plus rempli de contenus créés par des IA. Cela crée une boucle de rétroaction où l’IA se nourrit de ses propres productions, ce qui dégrade progressivement la qualité des résultats générés.
Des chercheurs des universités Rice et Stanford ont observé ce phénomène avec des générateurs d’images comme Midjourney et Dall-E. En intégrant davantage de données artificielles dans leurs modèles, ils ont noté que les images devenaient moins originales et contenaient des éléments de plus en plus incohérents. Cette situation est comparée à l’épidémie de la vache folle, où l’alimentation des bovins avec des farines animales contaminées a conduit à une crise sanitaire majeure.
La qualité des données utilisées pour former les IA est capitale. Lorsque ces données sont créées par d’autres IA, elles perdent en diversité et en pertinence, et peuvent comporter des biais, compromettant ainsi les résultats obtenus par les modèles d’intelligence artificielle.
Malgré ces avertissements, de nombreuses entreprises continuent d’utiliser des données synthétiques en raison de leur coût abordable et de leur disponibilité. Jathan Sadowski, chercheur en nouvelles technologies à l’université Monash en Australie, explique que les sources de données humaines de haute qualité deviennent rares, poussant les entreprises à se tourner vers des alternatives synthétiques.
Richard Baraniuk, de l’université Rice, avertit qu’un scénario catastrophe pourrait se produire si cette tendance n’est pas contrôlée. L’utilisation excessive de données synthétiques pourrait « empoisonner » la qualité et la diversité des informations sur Internet, menaçant ainsi l’industrie de l’IA, évaluée à des milliards de dollars.
Cependant, certains spécialistes, comme Anton Lozhkov de Hugging Face, jugent que ce problème est exagéré. Il affirme que l’entraînement sur plusieurs générations de données synthétiques n’est pas une pratique courante. Toutefois, il admet que l’état actuel du web, souvent qualifié de « poubelle », complique le travail des chercheurs en IA, qui doivent fréquemment nettoyer les données recueillies.
Le défi pour les chercheurs et les entreprises d’intelligence artificielle est de trouver un équilibre entre l’utilisation de données synthétiques et la préservation de la qualité et de la diversité des informations, afin de garantir des modèles d’IA fiables et performants.
Source : Emarketerz.fr