Une étude novatrice menée par des chercheurs de Google DeepMind, de l'Université de Washington, de l'UC Berkeley et d'autres institutions a révélé un aspect surprenant des grands modèles de langage comme ChatGPT : leur capacité à mémoriser et à reproduire les données spécifiques sur lesquelles ils ont été entraînés. Ce phénomène, appelé « mémorisation », soulève d'importantes questions de confidentialité, d'autant plus que ces modèles sont souvent entraînés sur des données textuelles vastes et diversifiées, contenant potentiellement des informations sensibles.
Comprendre la mémorisation des tableaux extrac
L'étude, portant sur la « mémorisation de donnéestrac», visait à déterminer si des entités externes pouvaienttracdes données apprises spécifiques de ces modèles sans connaissance préalable de l'ensemble d'entraînement. Cette mémorisation n'est pas qu'une simple question théorique ; elle a des implications concrètes en matière de protection de la vie privée.
Méthodologie de recherche et résultats
Des chercheurs ont employé une méthodologie inédite, générant de nombreux jetons à partir de différents modèles et les comparant aux ensembles de données d'entraînement afin d'dentles cas de mémorisation directe. Ils ont développé une méthode unique pour ChatGPT, appelée « attaque par divergence », où le modèle est incité à prononcer un mot jusqu'à ce qu'il dévie de manière répétée vers des données mémorisées. De façon surprenante, les modèles, y compris ChatGPT, ont fait preuve d'une mémorisation significative, restituant des portions de données d'entraînement suite à une incitation spécifique.
L'attaque par divergence et ChatGPT
Pour ChatGPT, l'attaque par divergence s'est révélée particulièrement instructive. Les chercheurs ont incité le modèle à répéter un mot plusieurs fois, ce qui l'a amené à s'écarter des réponses standard et à émettre des données mémorisées. Cette méthode, bien que pratique, est préoccupante en raison de ses implications en matière de confidentialité, car elle a démontré la possibilité d'tracdes informations potentiellement sensibles.
L'étude a révélé de manière alarmante que les données mémorisées pouvaient inclure des informations personnelles telles que des adresses électroniques et des numéros de téléphone. À l'aide d'expressions régulières et de modèles de langage, les chercheurs ont analysé 15 000 générations de séquences à la recherche de sous-chaînes ressemblant à des informations personnellesdent(IPI). Environ 16,9 % des générations contenaient des IPI mémorisées, dont 85,8 % étaient de véritables IPI, et non des données hallucinées.
Implications pour la conception et l'utilisation des modèles de langage
Ces résultats sont importants pour la conception et l'application des modèles de langage. Les techniques actuelles, même celles utilisées dans ChatGPT, pourraient ne pas suffire à prévenir les fuites de données. L'étude souligne la nécessité de méthodes de déduplication des données d'entraînement plus robustes et d'une meilleure compréhension de l'impact de la capacité du modèle sur la mémorisation.
La méthode principale consistait à générer du texte à partir de différents modèles et à comparer ces résultats aux ensembles de données d'entraînement respectifs des modèles afin d'évaluer la mémorisation. Des tableaux de suffixes étaient utilisés pour une correspondance efficace, permettant ainsi des recherches rapides de sous-chaînes au sein d'un vaste corpus textuel.
Des modèles plus complexes impliquent des risques de mémorisation plus importants
Une corrélation notable est apparue entre la taille du modèle et sa propension à la mémorisation. Les modèles plus grands, tels que GPT-Neo, LLaMA et ChatGPT, ont montré une plus grande probabilité de produire des données d'entraînement mémorisées, ce qui suggère une relation directe entre la capacité du modèle et la mémorisation.
Cette étude met en lumière un aspect crucial du développement de l'IA : garantir le respect de la vie privée des utilisateurs par les modèles performants. Elle ouvre de nouvelles perspectives de recherche et de développement, axées sur le renforcement des mesures de protection de la vie privée dans les modèles d'IA, notamment ceux utilisés dans les applications sensibles.
Alors que l'IA continue d'évoluer, cette étude met en lumière un aspect essentiel de son développement : la nécessité de renforcer la protection de la vie privée dans les modèles de langage. La révélation de la capacité de l'IA à mémoriser et potentiellement à divulguer des informations sensibles exige une action immédiate dans ce domaine, incitant les développeurs et les chercheurs à créer des modèles non seulement performants, mais aussi respectueux de la vie privée des utilisateurs. Cette recherche constitue une avancée significative vers la compréhension et l'atténuation des risques pour la vie privée associés aux technologies d'IA et d'apprentissage automatique.

