DERNIÈRES NOUVELLES
SÉLECTIONNÉ POUR VOUS
HEBDOMADAIRE
RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

Des chercheurs français et une start-up américaine contestent la revendication de droits d'auteur d'OpenAI

ParJames KinotiJames Kinoti
Temps de lecture : 2 min
OpenAI
  • Des chercheurs français et une start-up américaine ont contesté le besoin d'OpenAI d'utiliser des données protégées par le droit d'auteur pour l'entraînement de son IA.
  • Ils ont proposé des alternatives, comme d'immenses ensembles de données du domaine public et un modèle d'IA certifié.
  • Cela bouleverse les normes du secteur et s'aligne sur les réglementations mondiales, incitant à repenser l'utilisation des données d'IA.

Un événement sans précédent s'est produit : un consortium de chercheurs français, soutenu par le gouvernement, et une start-up américaine ont contesté d'OpenAI selon laquelle il serait « impossible » d'entraîner les principaux modèles d'IA sans recourir à des ressources protégées par le droit d'auteur. Cette remise en cause de la norme du secteur a provoqué rippleau sein de la communauté de l'IA, suscitant des débats et des discussions sur l'avenir de l'entraînement des modèles d'IA et la réglementation de l'utilisation des données.

De nouvelles preuves émergent

Des annonces récentes ont apporté des preuves convaincantes contredisant les affirmations d'OpenAI. Le groupe de recherche français a dévoilé ce qui est considéré comme le plus grand ensemble de données d'entraînement pour l'IA composé exclusivement de textes du domaine public. Cette avancée témoigne d'un changement significatif dans l'approche de la collecte de données pour l'entraînement des modèles d'IA, réduisant potentiellement la dépendance aux documents protégés par le droit d'auteur.

Par ailleurs, la start-up américaine 273 Ventures a reçu la certification de l'organisme à but non lucratif Fairly Trained pour avoir développé un modèle de langage à grande échelle (LLM) sans enfreindre les droits d'auteur. Ce modèle, baptisé KL3M, a été entraîné à l'aide d'un ensemble de données rigoureusement constitué de documents juridiques, financiers et réglementaires, démontrant ainsi la faisabilité de l'entraînement de modèles d'IA dans le respect des droits d'auteur.

Remettre en question les normes de l'industrie

L'émergence de ces initiatives remet en question la norme actuelle du secteur, qui consiste à utiliser des ressources protégées par le droit d'auteur pour l'entraînement des modèles d'IA. Grâce à la certification Fairly Trained qui récompense les entreprises respectant des pratiques éthiques en matière d'utilisation des données, les entreprises sont de plus en plus incitées à explorer des approches alternatives pour l'acquisition de données.

Cette évolution s'inscrit également dans le cadre des efforts mondiaux visant à réglementer l'utilisation des données d'IA. Des pays comme la Chine ont proposé des listes noires de sources jugées inadaptées à l'entraînement des modèles d'IA génératifs, tandis que l'Inde a mis en œuvre des mesures pour limiter l'accès à ses ensembles de données aux seuls modèles d'IA de confiance. Ces initiatives réglementaires soulignent l'importance de pratiques éthiques en matière de données dans le développement et le déploiement des technologies d'IA.

Implications pour OpenAI

OpenAI, acteur majeur de l'industrie de l'IA, se retrouve au cœur de ce débat. L'affirmation de l'entreprise selon laquelle des services comme ChatGPT seraient « impossibles » sans l'utilisation d'œuvres protégées par le droit d'auteur est remise en question par ces récents développements. Elon Musk, critique virulent des stratégies d'approvisionnement en données d'OpenAI, a exprimé ses inquiétudes quant à l'approche de l'entreprise suite aux révélations de sa directrice technique, Mira Murati.

Face à l'évolution constante du paysage de l'IA, il estdent que des pratiques éthiques en matière de données et le respect des droits d'auteur joueront un rôle déterminant dans l'avenir du développement de l'IA. L'émergence d'initiatives telles que le jeu de données d'entraînement pour l'IA du groupe de recherche français et le modèle certifié « Fairly Trained » de 273 Ventures marque un changement de paradigme dans le secteur, incitant les acteurs à repenser leurs méthodes d'acquisition de données et d'entraînement des modèles.

La contestation, par des chercheurs français et une start-up américaine, de l'affirmation d'OpenAI concernant la nécessité de recourir à des ressources protégées par le droit d'auteur pour l'entraînement des modèles d'IA marque une étape importante dans la recherche de pratiques de développement de l'IA éthiques et transparentes. Face à la montée en puissance des initiatives réglementaires internationales et à la remise en question des normes du secteur, la communauté de l'IA se trouve à un tournant décisif où l'innovation doit s'allier aux considérations éthiques et au respect du droit d'auteur.

Si vous lisez ceci, vous avez déjà une longueur d'avance. Restez-y grâce à notre newsletter.

Partagez cet article

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

PLUS D'ACTUALITÉS
COURS ACCÉLÉRÉ CRYPTOMONNAIES
LES