Le géant technologique NVIDIA se trouve au cœur d’une polémique concernant son utilisation non autorisée de contenus YouTube et Netflix pour former ses modèles d’intelligence artificielle. Cette situation met en lumière les défis juridiques et éthiques liés à l’entraînement des IA avec du contenu protégé par des droits d’auteur.
NVIDIA AI, la plateforme dédiée à l’intelligence artificielle de NVIDIA, est sous le feu des critiques après un rapport de 404 Media. Ce rapport indique que l’entreprise aurait téléchargé des milliers de vidéos YouTube et Netflix pour améliorer ses modèles d’IA, sans obtenir l’autorisation requise. Cette pratique, qui soulève des questions de droits d’auteur, est devenue courante dans le développement des IA.
Des anciens employés de NVIDIA ont affirmé que la récupération de vidéos de plateformes comme YouTube et Netflix faisait partie de leurs tâches pour divers projets de NVIDIA AI. Ces projets incluent la plateforme Omniverse pour les simulations numériques et les jumeaux numériques, ainsi que des systèmes de voitures autonomes. Pour YouTube, cette utilisation est une violation claire de ses conditions d’utilisation, comme l’avait déjà signalé Neal Mohan en avril dernier concernant l’IA générative d’OpenAI, Sora.
NVIDIA se défend en affirmant que ses employés ont agi sous les directives de leurs supérieurs et que l’entreprise respecte les droits d’auteur. Les documents internes révèlent cependant que le projet, nommé Cosmos, utilise une vaste bibliothèque de vidéos YouTube, initialement destinée à la recherche académique. NVIDIA aurait contourné les restrictions de YouTube en utilisant des téléchargeurs de vidéos et des adresses IP tournantes.
La méthode utilisée par NVIDIA AI n’est pas isolée. De nombreuses entreprises technologiques exploitent du contenu en ligne pour entraîner leurs modèles d’IA. Par exemple, OpenAI utilise Time Magazine Cette pratique inclut le scraping de pages web, l’écoute d’audios tels que des podcasts et des émissions de radio, et l’analyse de vidéos. Des outils comme ChatGPT, Gemini et d’autres plateformes d’IA ont également recours à ces techniques pour améliorer leurs performances.
Le cas de NVIDIA AI illustre le débat complexe autour des droits d’auteur dans le domaine de l’intelligence artificielle. Bien que NVIDIA affirme respecter la législation en vigueur, l’utilisation massive de contenus protégés sans autorisation pose un problème juridique et éthique. La conciliation des intérêts des créateurs de contenu et des développeurs d’IA demeure un défi majeur pour l’industrie.