Table des matières
OpenAI l’a annoncé sur son blog : le leader actuel de l’IA générative s’engage dans des partenariats de données pour améliorer les ensembles d’entraînement IA de ses outils, dont ChatGPT. En effet, OpenAI prend des mesures pour remédier aux lacunes majeures des ensembles de données utilisés dans la formation de ses intelligences artificielles. Avec une reconnaissance croissante des biais et des lacunes, la startup, devenue licorne (« unicorn » en anglais, qui désigne les startups valorisées plus d’un milliard de dollars, et non cotée en bourse) en peu de temps, se lance dans des partenariats d’obtention données visant à créer de nouveaux ensembles de données plus diversifiés et améliorés.
Ce n’est plus un secret pour personne : les ensembles de données actuellement utilisés pour l’entraînement des modèles d’IA présentent des lacunes significatives. Ces corpus sont souvent centrés sur les États-Unis et l’Occident, ne représentant pas la diversité culturelle et linguistique mondiale. De plus, des études, comme celle de l’Allen Institute for AI, ont mis en lumière la présence de langage toxique et de préjugés dans les données utilisées pour former les modèles de langage, créant ainsi des biais préjudiciables.
OpenAI annonce donc l’ouverture de son programme de partenariats de données : il s’agit d’une initiative visant à collaborer avec des institutions tierces pour créer de nouveaux ensembles de données, qui nourriront le système d’OpenAI et tous les services proposés (Whisper, ChatGPT etc). Cette démarche vise à améliorer la qualité des données utilisées pour l’entraînement des modèles d’IA. Cette initiative permettrait à un plus grand nombre d’organisations de contribuer à façonner l’avenir de l’IA, et de bénéficier de modèles plus pertinents.
L’objectif affiché est de garantir une compréhension approfondie de tous les sujets, industries, cultures et langues par les modèles d’IA, nécessitant ainsi des ensembles de données d’entraînement plus diversifiés que ceux actuellement en possession de la licorne.
Dans le cadre de ces partenariats, OpenAI envisage la création d’ensembles de données à grande échelle reflétant la société humaine dans sa diversité. Ils compteront des modalités variées comme des images, de l’audio et de la vidéo, mettant l’accent sur des données exprimant l’intention humaine dans différentes langues, sur divers sujets et dans des formats multiples.
La startup compte numériser les données de formation si nécessaire, utilisant des outils de reconnaissance optique de caractères et de reconnaissance automatique de la parole, en veillant à supprimer les informations sensibles ou personnelles.
OpenAI prévoit la création de deux types principaux d’ensembles de données : un ensemble public open source accessible à tous pour l’entraînement des modèles, et des ensembles de données privées destinés aux organisations souhaitant conserver leur confidentialité tout en améliorant la compréhension des modèles d’IA.
L’entreprise a déjà collaboré avec des entités comme le gouvernement islandais et le Free Law Project pour renforcer la capacité de ses modèles à comprendre des domaines spécifiques.
Cependant, des interrogations restent quant à la capacité d’OpenAI à résoudre complètement les biais des ensembles de données, un défi complexe mis en lumière par de nombreux experts IA. Des questions se posent également concernant la motivation commerciale apparente d’OpenAI et l’absence de compensation pour les détenteurs des données… car jusqu’ici, toutes les données utilisées par l’IA d’OpenAI, obtenues principalement par un processus de scraping, ne rémunèrent pas les ayant droits ni les créateurs de contenu.
Malgré les ambitions affichées, la transparence sur le processus et les défis rencontrés demeure un enjeu stratégique pour établir la confiance dans ces initiatives, visant à remodeler les données d’entraînement pour l’IA.