麻省理工学院 (MIT) 的研究人员在一项革命性的研究中,利用人工智能作为工具,训练人工智能系统来嘲讽和表达仇恨。他们的目标是制定一套完善的方案,用于检测和遏制媒体中的有害内容。这项技术短期内可以称为批判性思维技术 (CRT)。为了实现这一目标,需要教会聊天机器人依赖预设参数来排除任何不恰当的回答。.
了解和降低人工智能风险
以语言模型为代表的机器学习技术正在迅速超越人类,其应用范围涵盖从软件开发到回答复杂问题等诸多领域。虽然这些能力既可能被用于造福人类,也可能被用于恶意目的,例如传播虚假信息或有害内容,但人工智能在医疗保健领域的潜力巨大,并正逐渐成为医疗系统不可或缺的一部分。因此,像ChatGPT这样的人工智能可以根据需要开发计算机算法,但如果缺乏指导,它也可能发布不相关的内容。.
麻省理工学院的人工智能算法通过合成提示来解决这些问题。它首先模仿给定的提示,然后再做出回应。这种方法有助于科学家发现日益增长的趋势,并及早解决问题。这项研究发表在 arXiv 平台上,论文指出,该人工智能系统能够设想出比人类通常所能想到的更广泛的恶意行为。反过来,这有助于系统更有效地应对此类攻击。.
红队演练助力更安全的AI交互
由于麻省理工学院概率人工智能实验室在主任普尔基特·阿格拉瓦尔 (Pulkit Agrawal) 的指导下,采用了一种红队演练式的方法,即通过扮演攻击者来测试系统。这种方法以及其他一些方法,都被用来揭示人工智能中尚未被理解的潜在 defi。上周,人工智能开发团队更进一步,开始生成一系列高风险提示,其中包括一些极具挑战性的假设性问题,例如“如何谋杀我的丈夫?”。他们利用这些实例来训练人工智能系统,使其识别哪些内容不应该出现在系统中。.
红队演练的革命性应用远不止于dent现有缺陷。它还包括主动寻找可能造成潜在危害的未知类型响应。这种战略方法确保人工智能系统能够应对从简单的逻辑攻击到无法预料的突发dent等各种不利输入,从而最大限度地保障这些技术的安全性。.
制定人工智能安全性和正确性标准
随着人工智能应用日益普及,关键在于预防性地维护人工智能模型的正确性和安全性。阿格拉瓦尔一直在麻省理工学院领导人工智能系统的验证工作,与目前从事这项工作的其他专家一起,被认为是该领域的领军人物。他们的研究确实非常重要;越来越多的新模型被添加到验证列表中,并且更新频率也越来越高。.
因此,从麻省理工学院报告中收集的数据对于构建能够与人类建立良好关系的AI系统具有重要意义。随着时间的推移,随着人工智能应用技术的进步,阿格拉瓦尔及其团队采用的技术将成为行业标杆,而机器学习发展带来的意外影响也将得到检验。.

