Récemment, OpenAI a reçu un avertissementtrondu PDG de YouTube, Neal Mohan, concernant l'utilisation de sa plateforme pour l'entraînement des modèles d'IA de pointe Sora et ChatGPT. Cet avertissement fait suite à d'éventuelles violations des conditions d'utilisation de YouTube et à des inquiétudes quant à la provenance des données d'entraînement. La question de l'origine des données d'entraînement de ces systèmes d'IA de pointe a relancé le débat sur l'éthique de la recherche en IA et les obligations des entreprises technologiques.
Exploration des préoccupations de YouTube
La récente interview de Mira Murati ajoute une nouvelle couche d'incertitude au tableau déjà flou des pratiques d'entraînement de l'IA. Plus inquiétant encore, dans une interview accordée au Wall Street Journal il y a à peine un mois, Mira Murati, directrice technique d'OpenAI, a exprimé son incertitude et son manque de clarté quant à la source des données d'entraînement de Sora. Bien qu'il soit difficile de déterminer si des vidéos YouTube ont été ou sont utilisées pour l'entraînement, Neal Mohan, PDG de l'entreprise, a potentiellement lancé un avertissement en informant OpenAI que l'utilisation de vidéos sur sa plateforme est interdite.
« Il est interdit de télécharger des documents tels que des transcriptions ou des extraits vidéo, et le faire constitue une violation flagrante de nos conditions d'utilisation », a déclaré Mohan lors d'un entretien avec Emily Chang pour Bloomberg Originals. « Ce sont les règles relatives au contenu sur notre plateforme. » Bien que Google, la société mère de YouTube, développe sa propre intelligence artificielle multimodale, baptisée Gemini, qui utilise également des données d'entraînement, Mohan a précisé que Google respecte letracspécifique de chaque créateur avec YouTube pour déterminer s'il convient d'utiliser du contenu provenant de la plateforme.
Mohan a déclaré :
« Cela n'autorise pas le téléchargement de transcriptions ou d'extraits vidéo, ce qui constitue une violation flagrante de nos conditions d'utilisation. Ce sont les règles en vigueur concernant le contenu de notre plateforme. »
Source : Bloomberg
Mohan a également ajouté :
« Google respectetracindividuels conclus par YouTube avec les créateurs avant de décider d'utiliser ou non les vidéos de la plateforme. »
Source : Bloomberg
Naviguer dans le développement éthique de l'IA
Un examen plus approfondi des propos de Murati met en lumière la gravité de la question du droit d'auteur et de la mention de la source. Il est possible que Sora, le robot d'OpenAI, collecte l'intégralité du contenu disponible sur Internet, y compris les vidéos YouTube et les publications sur les réseaux sociaux, compte tenu de l'expression « données accessibles au public ». Par exemple, il est fort improbable que les conditions de licence de tous les contenus publiés sur YouTube autorisent ce type d'utilisation.
La gestion des droits d'auteur sur Internet est une tâche complexe en soi. Parallèlement, Sora d'OpenAI y aura accès et pourra en tirer profit, en plus de l'utiliser à des fins éducatives.
Il n'y a pas que le directeur technique d'OpenAI qui hésite à parler des jeux de données utilisés pour l'apprentissage de Sora. En général, l'entreprise ne mentionne pas ses sources. Le document technique de Sora n'indique même pas clairement qu'un nombre important de films avec leurs sous-titres sont nécessaires à l'entraînement des systèmes de conversion texte-vidéo.
Étant donné que ces entreprises n'ont pas le droit légal d'utiliser ces données, leur manque de transparence à cet égard pourrait être le premier indice qu'elles tentent d'éviter des problèmes juridiques.

