Quelle est la position de YouTube concernant l'entraînement des modèles Sora et ChatGPT d'OpenAI ?

Par

Aamir Sheikh

2 minutes de lecture 6 avril 2024

Quelle est la position de YouTube concernant l'entraînement des modèles Sora et ChatGPT d'OpenAI ?

Neal Mohan, PDG de YouTube, s'inquiète des sources de données de Sora et ChatGPT et met en garde OpenAI contre l'utilisation de sa plateforme pour l'entraînement de modèles.
L'incertitude qui entoure les données d'entraînement de Sora, et notamment sa dépendance aux vidéos YouTube, est révélée dans une interview accordée au Wall Street Journal par Mira Murati, directrice technique d'OpenAI.
Parce qu'il respecte la politique d'utilisation de YouTube concernant le contenu vidéo, le projet d'IA multimodale de Google, Gemini, sert de modèle pour le développement de l'IA sur la plateforme.

Récemment, OpenAI a reçu un avertissementtrondu PDG de YouTube, Neal Mohan, concernant l'utilisation de sa plateforme pour l'entraînement des modèles d'IA de pointe Sora et ChatGPT. Cet avertissement fait suite à d'éventuelles violations des conditions d'utilisation de YouTube et à des inquiétudes quant à la provenance des données d'entraînement. La question de l'origine des données d'entraînement de ces systèmes d'IA de pointe a relancé le débat sur l'éthique de la recherche en IA et les obligations des entreprises technologiques.

Exploration des préoccupations de YouTube

La récente interview de Mira Murati ajoute une nouvelle couche d'incertitude au tableau déjà flou des pratiques d'entraînement de l'IA. Plus inquiétant encore, dans une interview accordée au Wall Street Journal il y a à peine un mois, Mira Murati, directrice technique d'OpenAI, a exprimé son incertitude et son manque de clarté quant à la source des données d'entraînement de Sora. Bien qu'il soit difficile de déterminer si des vidéos YouTube ont été ou sont utilisées pour l'entraînement, Neal Mohan, PDG de l'entreprise, a potentiellement lancé un avertissement en informant OpenAI que l'utilisation de vidéos sur sa plateforme est interdite.

« Il est interdit de télécharger des documents tels que des transcriptions ou des extraits vidéo, et le faire constitue une violation flagrante de nos conditions d'utilisation », a déclaré Mohan lors d'un entretien avec Emily Chang pour Bloomberg Originals. « Ce sont les règles relatives au contenu sur notre plateforme. » Bien que Google, la société mère de YouTube, développe sa propre intelligence artificielle multimodale, baptisée Gemini, qui utilise également des données d'entraînement, Mohan a précisé que Google respecte letracspécifique de chaque créateur avec YouTube pour déterminer s'il convient d'utiliser du contenu provenant de la plateforme.

Mohan a déclaré :

« Cela n'autorise pas le téléchargement de transcriptions ou d'extraits vidéo, ce qui constitue une violation flagrante de nos conditions d'utilisation. Ce sont les règles en vigueur concernant le contenu de notre plateforme. »
Source : Bloomberg

Mohan a également ajouté :

« Google respectetracindividuels conclus par YouTube avec les créateurs avant de décider d'utiliser ou non les vidéos de la plateforme. »
Source : Bloomberg

Naviguer dans le développement éthique de l'IA

Un examen plus approfondi des propos de Murati met en lumière la gravité de la question du droit d'auteur et de la mention de la source. Il est possible que Sora, le robot d'OpenAI, collecte l'intégralité du contenu disponible sur Internet, y compris les vidéos YouTube et les publications sur les réseaux sociaux, compte tenu de l'expression « données accessibles au public ». Par exemple, il est fort improbable que les conditions de licence de tous les contenus publiés sur YouTube autorisent ce type d'utilisation.

La gestion des droits d'auteur sur Internet est une tâche complexe en soi. Parallèlement, Sora d'OpenAI y aura accès et pourra en tirer profit, en plus de l'utiliser à des fins éducatives.

Il n'y a pas que le directeur technique d'OpenAI qui hésite à parler des jeux de données utilisés pour l'apprentissage de Sora. En général, l'entreprise ne mentionne pas ses sources. Le document technique de Sora n'indique même pas clairement qu'un nombre important de films avec leurs sous-titres sont nécessaires à l'entraînement des systèmes de conversion texte-vidéo.

Étant donné que ces entreprises n'ont pas le droit légal d'utiliser ces données, leur manque de transparence à cet égard pourrait être le premier indice qu'elles tentent d'éviter des problèmes juridiques.

Si vous lisez ceci, vous avez déjà une longueur d'avance. Restez-y grâce à notre newsletter.

Partagez cet article

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Aamir Sheikh

Aamir est un journaliste spécialisé dans les technologies, fort de près de six ans d'expérience dans les secteurs des cryptomonnaies et des technologies. Diplômé de l'université MAJ avec un MBA en finance et marketing, il travaille actuellement pour Cryptopolitan, où il couvre l'actualité des marchés des cryptomonnaies et propose des prévisions de prix.

TABLE DES MATIÈRES

1. Exploration des préoccupations de YouTube

2. Naviguer dans le développement éthique de l'IA

Partagez cet article