微软研究人员推出创新技术,可从大型语言模型中清除特定知识

- 微软研究人员公布了一种新方法,可以让人工智能模型忘记特定信息,例如哈利·波特,而无需进行大规模的重新训练。.
- 他们采用的三步技术只需一个GPU小时即可有效清除知识,同时保持AI的整体性能不变。.
- 这一突破为未来更具适应性和更符合伦理道德的人工智能模型带来了希望。.
微软的研究团队在人工智能领域取得了一项重大进展,他们提出了一种开创性的方法,可以有选择地修改大型语言模型(LLM)中的特定知识。这项突破性的方法已 在著名的预印本 平台arXiv.org上发表,详细阐述了其原理。该方法解决了在LLM训练过程中使用受版权保护的材料这一重要问题,并为这些模型能否在无需大量重新训练的情况下进行适应性调整提供了一个很有前景的解决方案。
适应能力的显著提升
包括OpenAI的ChatGPT、Meta的Llama 2和Anthropic的Claude 2在内的大型语言模型,因其能够基于训练所用的庞大数据集(其中可能包含受版权保护的材料)生成文本内容而trac关注和审视。如何定制这些模型以使其遗忘或忘记特定信息,一直是人们关注的焦点。.
一小时内即可在GPU上高效擦除
微软的研究人员Ronen Eldan 和 Mark Russinovich 针对这一挑战提出了一种巧妙的解决方案。他们的论文介绍了一种三步技术,旨在近似模拟语言学习模型 (LLM) 中特定信息的遗忘过程。该方法最显著的特点是其高效性。值得一提的是,他们仅需一个小时的 GPU 微调,即可清除所有与《哈利·波特》系列书籍相关的知识,包括人物和情节细节。这种高效率为开发更具适应性和响应性的语言模型带来了巨大的希望。
解构三段式技术
Eldan 和 Russinovich 的技术与传统的机器学习方法显著不同,后者主要侧重于积累知识,而没有提供直接的遗忘机制。他们的创新方法包含三个基本步骤:
1.dent相关词元:在初始阶段,模型使用目标数据(在本例中为《哈利·波特》系列书籍)进行dent。模型通过将其预测结果与基线模型的预测结果进行比较,识别出与目标数据最密切相关的词元。这一初始步骤是确定需要删除的知识的基础。.
2. 替换特有表达式:第二步是将哈利·波特系列特有的表达式替换为通用表达式。通过这种方式,研究人员生成了替代预测结果,这些结果有效地反映了缺乏特定训练数据的模型的输出。这种替换是知识抹除过程中的关键步骤。.
3. 微调和擦除:最后一步是利用备选预测结果对基线模型进行微调。当提供与《哈利·波特》系列相关的上下文时,此微调过程会从模型的内存中删除原始文本。这一关键步骤使模型能够“忘记”《哈利·波特》系列书籍中错综复杂的故事情节。.
评估成功
Eldan 和 Russinovich 进行了一系列全面的测试,以评估他们方法的有效性。他们使用 300 个matic生成的提示语,检验了该模型在生成或讨论与《哈利·波特》系列相关的内容方面的能力,并仔细分析了词元概率。至关重要的是,他们的研究结果表明,经过仅仅一个小时的微调,该模型基本上可以“忘记”《哈利·波特》系列的详细叙事。值得注意的是,这种“遗忘”对模型在 ARC、BoolQ 和 Winogrande 等标准基准测试中的表现几乎没有影响。.
启示与未来研究
尽管这项突破性技术展现出巨大的潜力,但必须强调的是,还需要开展进一步的研究来完善和扩展该方法,尤其是在大型语言模型中更广泛的“遗忘”任务方面。值得注意的是,由于虚构文本(例如《哈利·波特》系列)中存在独特的典故,这种方法可能对这类文本尤为有效。.
随着人工智能系统在各个领域发挥着日益关键的作用,选择性遗忘或遗忘特定信息的能力变得至关重要。这种方法是开发更负责任、更具适应性且符合法律法规的学习学习模型(LLM)的基础性步骤。随着人工智能领域的不断发展,它有望满足伦理准则、社会价值观以及用户的特定需求。.
不要只是阅读加密货币新闻,要理解它。订阅我们的新闻简报, 完全免费。
免责声明:本页面提供的信息并非交易建议。Cryptopolitan.com对任何基于本页面信息进行的投资概不负责。我们tron您在做出任何投资决定前进行独立dent /或咨询合格的专业人士。Cryptopolitan研究

布伦达·卡纳纳
Brenda拥有超过4年的加密货币、人工智能和新兴技术领域的专业经验。她曾就职于Zycrypto、Blockchain Reporter和The Coin Republic,现在在 Cryptopolitan 工作。她拥有蒙巴萨理工大学的社会学学位,这使她能够敏锐地把握读者的脉搏。.
学速成课程
- 哪些加密货币可以让你赚钱
- 如何通过钱包提升安全性(以及哪些钱包真正值得使用)
- 专业人士使用的鲜为人知的投资策略
- 如何开始投资加密货币(使用哪些交易所、购买哪种加密货币最划算等)















