Les entreprises spécialisées en IA naviguent dans les zones grises juridiques concernant les données d'entraînement

Par

Brian Koome

4 minutes de lecture 6 avril 2024

OpenAI et Google sont critiqués pour la collecte de données d'entraînement. OpenAI transcrit des vidéos YouTube et Google utilise du contenu avec autorisation.
Meta envisage de racheter un grand éditeur pour collecter des données destinées à l'IA, dans un contexte de préoccupations liées à la protection de la vie privée.
L'industrie de l'IA est confrontée à une pénurie de données et explore des solutions comme les données synthétiques, mais des préoccupations juridiques et éthiques persistent.

Lorsqu'on aborde le récent débat sur la manière dont Open et Google collectent leurs données pour les adapter au modèle, deux termes dominent les discussions : « open » et « Google ». Les articles récemment publiés dans le Wall Street Journal et le New York Times montrent que les méthodes de collecte de données des entreprises spécialisées en IA laissent à désirer et soulèvent des questions quant à la fiabilité des données et aux considérations éthiques ayant présidé à la création de ces systèmes.

Les tactiques douteuses d'OpenAI

Cependant, à son apogée, le New York Times a mis l'accent sur les retombées majeures d'OpenAI, notamment avec Whisper. Ce modèle de transcription audio-texte est présenté comme un complément au processeur de langage LP-4 d'OpenAI. En effet, la voiture autonome d'OpenAI ne repose pas sur la collecte d'informations, un défi de taille auquel l'entreprise est confrontée ; c'est plutôt cette dernière qui entre en jeu dans ces conditions.

Bien que la popularité initiale des lois sur la collecte de données ait été liée à des considérations de droit d'auteur relatives à l'utilisation équitable, ces dernières sont également devenues un fondement juridique de ces lois. Comme l'a indiqué Brockman, l'un des membres fondateurs et le PDG d'OpenAI ont fourni certaines informations nécessaires à la transcription. Il précise toutefois que l'historien a également contribué à cette transcription.

Cependant, Google Corporation occupe le devant de la scène, même pour ces petits problèmes, au détriment de projets plus importants comme celui-ci : une fonction de collecte de données comme OpenAI est une organisation plus petite qui s’engage dans des projets destinés au géant de l’industrie, et l’utilisateur a seulement été averti sans qu’on lui dise qui était responsable selon YouTube.

Outre cette approche, Facebook a également abordé la question du respect des conditions d'utilisation et interdit les actions non autorisées, notamment le « scraping de données ». John Conly, porte-parole de YouTube, a quant à lui répondu à la question de savoir si les modèles étaient utilisés pour l'entraînement d'une IA basée sur le contenu après la collecte de données auprès des créateurs de contenu.

Au contraire. Outre la question de savoir de quel côté Meta se situe le problème actuel, la question de sa faisabilité reste entière. Le d'IA de l'entreprise, qui a remporté la compétition contre OpenAI, a estimé que les deux équipes avaient utilisé tous les moyens à leur disposition pour obtenir le meilleur résultat possible pour leurs entreprises respectives, y compris une réflexion originale sans prendre en compte aucun élément favorisant la partie perdante.

Meta semble avoir préparé des questions précises sur la répartition des tâches, les personnes chargées des achats de livres et les éditeurs spécialisés. Malgré une expérience utilisateur remarquable, la politique gouvernementale en place s'est arrogée le droit de porter atteinte à la vie privée, comme l'a mis en lumière l'affaire Cambridge Analytica en 2018.

Le domaine de l'entraînement des systèmes d'IA est confronté à un dilemme crucial : d'une part, la question de la pénurie de données s'est accentuée ces dernières années ; d'autre part, si le lien entre les deux demeure, les chercheurs insistent sur la nécessité de disposer de données suffisantes pour améliorer la précision et les performances.

Par ailleurs, les prévisions du Wall Street Journal suscitent un vif enthousiasme, anticipant des hausses supérieures à tous les objectifs fixés pour le début de l'année 2020 et un franchissement du cap de la clôture avec un niveau record. Cette méthode repose sur deux piliers : le recours à des modèles, synthétiques pour définir une matrice externe, et un processus décisionnel structuré, où les modèles apprennent de leurs propres décisions. Il ne faut pas s'attendre à des résultats immédiats, mais plutôt à ce qu'ils soient observables.

Implications juridiques et éthiques

L'absence de réglementation sur le piratage pourrait poser problème, car aucun moyen ne permettrait aux utilisateurs d'accéder aux contenus protégés par le droit d'auteur. Des questions d'interprétation des missions pourraient alors surgir, notamment en matière de droit et d'éthique. Les données deviendraient-elles une propriété immatérielle, servant de base pour déterminer ce qui appartient et ce qui ne appartient pas ? Dans ce cas, les données et l'utilisateur seraient-ils considérés comme la source de l'activité, même lorsque leur utilisation est abusive ? Face à ce risque, les responsables de programmes de R&D devraient se concentrer sur l'analyse de ces données et la recherche de solutions.

Dans le cadre des actions collectives, il semblerait que l'organisation ne dispose pas de suffisamment de connaissances en matière de protection de la vie privée et d'utilisation des données pour légitimer ses activités. En effet, les difficultés (telles que les questions éthiques liées à l'exploration des données pour la recherche et le développement en IA) se complexifient car il faut tenir compte des restrictions réglementaires et de la protection des données (la nature même des données étant indissociable de leur traitement et de leur utilisation).

Le défi majeur de l'IA de demain réside dans l'dentdes données optimales pour l'entraînement des systèmes d'IA, et plus encore, dans la question de savoir si ces données seront soumises à des cadres réglementaires éthiques et juridiques communs. Par essence, l'IA met l'accent sur des concepts tels que l'innovation et la mise en œuvre, notamment grâce au filtrage des ensembles de données pour les entreprises, et les développe.

L'intelligence artificielle, étant une technologie, n'est jamais statique. Le principal problème réside donc toujours dans l'utilisation des données, et cela restera l'une des priorités des membres de la communauté qui se forment grâce à l'utilisation optimale de l'intelligence artificielle.

Article original : https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb

Si vous lisez ceci, vous avez déjà une longueur d'avance. Restez-y grâce à notre newsletter.

Partagez cet article

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Brian Koome

Brian Koome possède plus de sept ans d'expérience dans le journalisme spécialisé en blockchain et cryptomonnaies, et est actif dans ce secteur depuis 2017. Il a collaboré avec des publications de référence, dont BlockToday.com. Par ailleurs, il a conçu le cours Ethereum 101 pour BitDegree.org avant de rejoindre Cryptopolitan en tant que rédacteur à temps plein. Brian rédige des guides pratiques, des analyses approfondies, des interviews et des analyses de prix. Son intérêt pour DeFi, l'innovation blockchain et les projets crypto émergents est très apprécié des lecteurs.

TABLE DES MATIÈRES

1. Les tactiques douteuses d'OpenAI

2. Implications juridiques et éthiques

Partagez cet article