DERNIÈRES NOUVELLES

Alephium recommande de retirer ses liquidités jusqu'à nouvel ordre après qu'un piratage informatique a dérobé 815 000 $

Actualités du 30 mai 2026
Zama : Le gel destracintelligents cUSDC a été une victime collatérale du coup de poker d'Overnight Finance

Actualités du 30 mai 2026
L'ancien joueur de la NBA, Tristan Thompson, fait la une des journaux en réclamant 2 millions de dollars et en exigeant une vasectomie

Actualités du 30 mai 2026
Des pirates informatiques ont dérobé 5,4 millions de dollars sur le pont Ethereum - Cosmos de Gravity

Actualités du 30 mai 2026

SÉLECTIONNÉ POUR VOUS

HEBDOMADAIRE

RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

Nouveaux risques pour la vie privée dans l'IA : le défi de la mémorisation dans les modèles de langage

Par

John Palmer

Temps de lecture : 2 min - 29 novembre 2023

Risque lié à la mémorisation par l'IA : des modèles comme ChatGPT peuvent se souvenir des données d'entraînement, ce qui soulève des problèmes de confidentialité.

Une attaque par divergence sur ChatGPT expose le risque de fuite de données sensibles.

Les modèles d'IA plus grands présentent une plus forte propension à mémoriser et à divulguer des informations privées.

Une étude novatrice menée par des chercheurs de Google DeepMind, de l'Université de Washington, de l'UC Berkeley et d'autres institutions a révélé un aspect surprenant des grands modèles de langage comme ChatGPT : leur capacité à mémoriser et à reproduire les données spécifiques sur lesquelles ils ont été entraînés. Ce phénomène, appelé « mémorisation », soulève d'importantes questions de confidentialité, d'autant plus que ces modèles sont souvent entraînés sur des données textuelles vastes et diversifiées, contenant potentiellement des informations sensibles.

Comprendre la mémorisation des tableaux extrac

L'étude, portant sur la « mémorisation de donnéestrac», visait à déterminer si des entités externes pouvaienttracdes données apprises spécifiques de ces modèles sans connaissance préalable de l'ensemble d'entraînement. Cette mémorisation n'est pas qu'une simple question théorique ; elle a des implications concrètes en matière de protection de la vie privée.

Méthodologie de recherche et résultats

Des chercheurs ont employé une méthodologie inédite, générant de nombreux jetons à partir de différents modèles et les comparant aux ensembles de données d'entraînement afin d'dentles cas de mémorisation directe. Ils ont développé une méthode unique pour ChatGPT, appelée « attaque par divergence », où le modèle est incité à prononcer un mot jusqu'à ce qu'il dévie de manière répétée vers des données mémorisées. De façon surprenante, les modèles, y compris ChatGPT, ont fait preuve d'une mémorisation significative, restituant des portions de données d'entraînement suite à une incitation spécifique.

L'attaque par divergence et ChatGPT

Pour ChatGPT, l'attaque par divergence s'est révélée particulièrement instructive. Les chercheurs ont incité le modèle à répéter un mot plusieurs fois, ce qui l'a amené à s'écarter des réponses standard et à émettre des données mémorisées. Cette méthode, bien que pratique, est préoccupante en raison de ses implications en matière de confidentialité, car elle a démontré la possibilité d'tracdes informations potentiellement sensibles.

L'étude a révélé de manière alarmante que les données mémorisées pouvaient inclure des informations personnelles telles que des adresses électroniques et des numéros de téléphone. À l'aide d'expressions régulières et de modèles de langage, les chercheurs ont analysé 15 000 générations de séquences à la recherche de sous-chaînes ressemblant à des informations personnellesdent(IPI). Environ 16,9 % des générations contenaient des IPI mémorisées, dont 85,8 % étaient de véritables IPI, et non des données hallucinées.

Implications pour la conception et l'utilisation des modèles de langage

Ces résultats sont importants pour la conception et l'application des modèles de langage. Les techniques actuelles, même celles utilisées dans ChatGPT, pourraient ne pas suffire à prévenir les fuites de données. L'étude souligne la nécessité de méthodes de déduplication des données d'entraînement plus robustes et d'une meilleure compréhension de l'impact de la capacité du modèle sur la mémorisation.

La méthode principale consistait à générer du texte à partir de différents modèles et à comparer ces résultats aux ensembles de données d'entraînement respectifs des modèles afin d'évaluer la mémorisation. Des tableaux de suffixes étaient utilisés pour une correspondance efficace, permettant ainsi des recherches rapides de sous-chaînes au sein d'un vaste corpus textuel.

Des modèles plus complexes impliquent des risques de mémorisation plus importants

Une corrélation notable est apparue entre la taille du modèle et sa propension à la mémorisation. Les modèles plus grands, tels que GPT-Neo, LLaMA et ChatGPT, ont montré une plus grande probabilité de produire des données d'entraînement mémorisées, ce qui suggère une relation directe entre la capacité du modèle et la mémorisation.

Cette étude met en lumière un aspect crucial du développement de l'IA : garantir le respect de la vie privée des utilisateurs par les modèles performants. Elle ouvre de nouvelles perspectives de recherche et de développement, axées sur le renforcement des mesures de protection de la vie privée dans les modèles d'IA, notamment ceux utilisés dans les applications sensibles.

Alors que l'IA continue d'évoluer, cette étude met en lumière un aspect essentiel de son développement : la nécessité de renforcer la protection de la vie privée dans les modèles de langage. La révélation de la capacité de l'IA à mémoriser et potentiellement à divulguer des informations sensibles exige une action immédiate dans ce domaine, incitant les développeurs et les chercheurs à créer des modèles non seulement performants, mais aussi respectueux de la vie privée des utilisateurs. Cette recherche constitue une avancée significative vers la compréhension et l'atténuation des risques pour la vie privée associés aux technologies d'IA et d'apprentissage automatique.

Ne vous contentez pas de lire les actualités crypto. Comprenez-les. Abonnez-vous à notre newsletter. C'est gratuit.

Partagez cet article

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

John Palmer

John Murangiri a rejoint Cryptopolitan fort d'une solide expérience en analyse de marché. John (alias JP) est diplômé de l'Université de Nairobi, où il a obtenu une licence en communication et études des médias. Il a auparavant collaboré avec InsideBitcoins.com et Metacoingraph en leur fournissant des analyses du marché des cryptomonnaies.

TABLE DES MATIÈRES

1. Comprendre la mémorisation des tableaux extrac

2. Méthodologie de recherche et résultats

3. L'attaque par divergence et ChatGPT

4. Implications pour la conception et l'utilisation des modèles de langage

5. Des modèles plus complexes impliquent des risques de mémorisation plus importants

Partagez cet article

PLUS D'ACTUALITÉS

AFFICHER TOUT

5 applications ingénieuses de ChatGPT et ce que vous devriez en faire

Il y a 3 ans, John Palmer, technicien

93 % des dirigeants d'entreprise privilégient les solutions basées sur l'IA pour la gestion de la durabilité de leur marque (Reuters)

Il y a 3 ans, John Palmer, technicien

Voici comment Macron soutient l'écosystème d'IA dynamique et productif de la France

Il y a 3 ans, Tech Glory Kaburu

Bloomberg estime que le marché de l'IA générative atteindra 1 300 milliards de dollars d'ici 2032

Il y a 3 ans, Tech Aamir Sheikh

Base est-il le réseau Ethereum de couche 2 lancé par Coinbase ?

21 octobre 2025 Apprendre la crypto : Guides pour débutants
Dogecoin contre Bitcoin: Principales différences techniques

20 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce que la TVL (Total Value Locked) en cryptomonnaie ?

14 octobre 2025 Apprendre la crypto : Guides pour débutants
Comment lire un livre blanc sur les cryptomonnaies ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Ripple vs. XRP vs. XRP Ledger : quelle est la différence ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce qu'un portefeuille multisignature dans le monde des cryptomonnaies ?

10 octobre 2025 Apprendre la crypto : Guides pour débutants

COURS ACCÉLÉRÉ SUR LES CRYPTOMONNAIES

Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
Stratégies d'investissement peu connues utilisées par les professionnels
Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)