一项由谷歌DeepMind、华盛顿大学、加州大学伯克利分校等机构的研究人员共同完成的突破性研究揭示了ChatGPT等大型语言模型的一个惊人特性:它们能够记住并复现训练时使用的特定数据。这种被称为“记忆”的现象引发了严重的隐私担忧,尤其考虑到这些模型通常使用海量且多样化的文本数据进行训练,其中可能包含敏感信息。.
理解trac表格记忆
这项研究聚焦于“可trac记忆”,旨在确定外部实体是否能够在事先不知晓训练集的情况下,从这些模型中trac特定的学习数据。这种记忆并非仅仅是理论上的问题,它对现实世界的隐私安全有着切实的影响。.
研究方法和结果
研究人员采用了一种新颖的方法,利用各种模型生成大量词元,并将其与训练数据集进行比较,以dent直接记忆的实例。他们为 ChatGPT 开发了一种独特的方法,称为“发散攻击”,即提示模型说出某个词,直到它反复说出已记忆的数据。令人惊讶的是,包括 ChatGPT 在内的模型都表现出了显著的记忆能力,在特定提示下能够复述训练数据片段。.
发散攻击和 ChatGPT
对于 ChatGPT 而言,发散攻击尤其具有启发性。研究人员诱导模型多次重复某个单词,使其偏离标准响应并发出记忆数据。这种方法既实用又令人担忧其隐私隐患,因为它展现了trac潜在敏感信息的能力。.
这项研究令人震惊的发现是,记忆中的数据可能包含电子邮件地址和电话号码等个人信息。研究人员使用正则表达式和语言模型提示,评估了15000个生成序列,以寻找类似于个人dent信息(PII)的子字符串。大约16.9%的生成序列包含记忆中的PII,其中85.8%是真实的PII,而非臆想内容。.
对语言模型设计和使用的影响
这些发现对语言模型的设计和应用具有重要意义。即使是ChatGPT中使用的现有技术,也可能无法充分防止数据泄露。该研究强调了开发更稳健的训练数据去重方法以及深入理解模型容量如何影响记忆的必要性。.
核心方法包括利用各种模型生成文本,并将这些输出与模型各自的训练数据集进行比对,以验证模型的记忆能力。后缀数组用于高效匹配,从而能够在大型文本语料库中快速搜索子字符串。.
模型越复杂,记忆风险越大。
研究发现,模型规模与其记忆倾向之间存在显著相关性。像 GPT-Neo、LLaMA 和 ChatGPT 这样规模较大的模型,更有可能输出记忆化的训练数据,这表明模型容量与记忆能力之间存在直接关系。.
这项研究揭示了人工智能发展的一个关键方面——确保强大的模型尊重用户隐私。它为研发开辟了新的途径,重点在于增强人工智能模型(尤其是用于隐私敏感型应用的模型)的隐私保护措施。.
随着人工智能的不断发展,这项研究揭示了其发展的一个关键方面:语言模型中亟需加强隐私保护措施。人工智能记忆并可能泄露敏感信息的能力已被证实,这迫切需要该领域采取行动,敦促开发者和研究人员创建既功能强大又能保障用户隐私的模型。这项研究标志着在理解和降低人工智能及机器学习技术相关的隐私风险方面迈出了重要一步。.

