Your bank is using your money. You’re getting the scraps.WATCH FREE

Nouveaux risques pour la vie privée dans l'IA : le défi de la mémorisation dans les modèles de langage

Dans cet article :

  • Risque lié à la mémorisation par l'IA : des modèles comme ChatGPT peuvent se souvenir des données d'entraînement, ce qui soulève des problèmes de confidentialité.
  • Une attaque par divergence sur ChatGPT expose le risque de fuite de données sensibles.
  • Les modèles d'IA plus grands présentent une plus forte propension à mémoriser et à divulguer des informations privées.

Une étude novatrice menée par des chercheurs de Google DeepMind, de l'Université de Washington, de l'UC Berkeley et d'autres institutions a révélé un aspect surprenant des grands modèles de langage comme ChatGPT : leur capacité à mémoriser et à reproduire les données spécifiques sur lesquelles ils ont été entraînés. Ce phénomène, appelé « mémorisation », soulève d'importantes questions de confidentialité, d'autant plus que ces modèles sont souvent entraînés sur des données textuelles vastes et diversifiées, contenant potentiellement des informations sensibles.

Comprendre la mémorisation des tableaux extrac

L'étude, portant sur la « mémorisation de donnéestrac», visait à déterminer si des entités externes pouvaienttracdes données apprises spécifiques de ces modèles sans connaissance préalable de l'ensemble d'entraînement. Cette mémorisation n'est pas qu'une simple question théorique ; elle a des implications concrètes en matière de protection de la vie privée.

Méthodologie de recherche et résultats

Des chercheurs ont employé une méthodologie inédite, générant de nombreux jetons à partir de différents modèles et les comparant aux ensembles de données d'entraînement afin d'dentles cas de mémorisation directe. Ils ont développé une méthode unique pour ChatGPT, appelée « attaque par divergence », où le modèle est incité à prononcer un mot jusqu'à ce qu'il dévie de manière répétée vers des données mémorisées. De façon surprenante, les modèles, y compris ChatGPT, ont fait preuve d'une mémorisation significative, restituant des portions de données d'entraînement suite à une incitation spécifique.

L'attaque par divergence et ChatGPT

Pour ChatGPT, l'attaque par divergence s'est révélée particulièrement instructive. Les chercheurs ont incité le modèle à répéter un mot plusieurs fois, ce qui l'a amené à s'écarter des réponses standard et à émettre des données mémorisées. Cette méthode, bien que pratique, est préoccupante en raison de ses implications en matière de confidentialité, car elle a démontré la possibilité d'tracdes informations potentiellement sensibles.

Voir aussi :  Le portefeuille d’un entrepreneur crypto singapourien anéanti par un logiciel malveillant déguisé en jeu

L'étude a révélé de manière alarmante que les données mémorisées pouvaient inclure des informations personnelles telles que des adresses électroniques et des numéros de téléphone. À l'aide d'expressions régulières et de modèles de langage, les chercheurs ont analysé 15 000 générations de séquences à la recherche de sous-chaînes ressemblant à des informations personnellesdent(IPI). Environ 16,9 % des générations contenaient des IPI mémorisées, dont 85,8 % étaient de véritables IPI, et non des données hallucinées.

Implications pour la conception et l'utilisation des modèles de langage

Ces résultats sont importants pour la conception et l'application des modèles de langage. Les techniques actuelles, même celles utilisées dans ChatGPT, pourraient ne pas suffire à prévenir les fuites de données. L'étude souligne la nécessité de méthodes de déduplication des données d'entraînement plus robustes et d'une meilleure compréhension de l'impact de la capacité du modèle sur la mémorisation.

La méthode principale consistait à générer du texte à partir de différents modèles et à comparer ces résultats aux ensembles de données d'entraînement respectifs des modèles afin d'évaluer la mémorisation. Des tableaux de suffixes étaient utilisés pour une correspondance efficace, permettant ainsi des recherches rapides de sous-chaînes au sein d'un vaste corpus textuel.

Des modèles plus complexes impliquent des risques de mémorisation plus importants

Une corrélation notable est apparue entre la taille du modèle et sa propension à la mémorisation. Les modèles plus grands, tels que GPT-Neo, LLaMA et ChatGPT, ont montré une plus grande probabilité de produire des données d'entraînement mémorisées, ce qui suggère une relation directe entre la capacité du modèle et la mémorisation.

Cette étude met en lumière un aspect crucial du développement de l'IA : garantir le respect de la vie privée des utilisateurs par les modèles performants. Elle ouvre de nouvelles perspectives de recherche et de développement, axées sur le renforcement des mesures de protection de la vie privée dans les modèles d'IA, notamment ceux utilisés dans les applications sensibles.

Voir aussi  l'analyse du prix du fabricant : les acheteurs se préparent à pousser le MKR au-dessus de 2 500 $

Alors que l'IA continue d'évoluer, cette étude met en lumière un aspect essentiel de son développement : la nécessité de renforcer la protection de la vie privée dans les modèles de langage. La révélation de la capacité de l'IA à mémoriser et potentiellement à divulguer des informations sensibles exige une action immédiate dans ce domaine, incitant les développeurs et les chercheurs à créer des modèles non seulement performants, mais aussi respectueux de la vie privée des utilisateurs. Cette recherche constitue une avancée significative vers la compréhension et l'atténuation des risques pour la vie privée associés aux technologies d'IA et d'apprentissage automatique.

Vos clés, votre carte. Dépensez sans en céder la garde et obtenez un rendement de plus de 8 % sur votre solde avec Ether.fi Cash .

Partager le lien :

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. Cryptopolitan.com Cryptopolitan toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous vous recommandons vivement d’effectuer vos tron dent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Articles les plus lus

Chargement des articles les plus lus...

Restez informé(e) de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte mail

Choix de la rédaction

Chargement des articles sélectionnés par la rédaction...

- La newsletter crypto qui vous donne une longueur d'avance -

Les marchés évoluent rapidement.

Nous avançons plus vite.

Abonnez-vous à Cryptopolitan Daily et recevez directement dans votre boîte mail des informations crypto pertinentes, pointues et actualisées.

Inscrivez-vous maintenant et
ne manquez plus aucun mouvement.

Entrez. Renseignez-vous.
Prenez de l'avance.

Abonnez-vous à CryptoPolitan