在深度学习领域,存在来自单一来源的数据不足以训练模型的情况。 这导致数据所有者越来越感兴趣,不仅利用自己的数据,还整合其他来源的数据。 实现这一目标的一种方法是使用基于云的模型,该模型可以从多个数据源中学习。 然而,一个关键问题是敏感信息的保护。
这就产生了协作深度学习的概念,它围绕两个主要策略:共享加密训练数据和共享加密梯度。 这里的首要原则是使用完全同态加密来确保所有数据(包括用于云中操作的数据)在整个学习过程中保持加密状态。
共享加密数据以确保隐私
在协作深度学习期间,已经有一些创新方法来确保隐私。 其中一种方法涉及数据所有者和基于云的系统。 它的工作原理如下:
- 数据所有者创建公钥、秘密密钥和评估密钥。 然后,他们使用公钥加密数据(例如训练数据和所需目标),并将这些加密数据转发到云端。
- 云在收到加密数据后,将使用数据所有者提供的公钥和评估密钥来训练模型。
- 一旦学习过程更新了加密权重,云就会将这些加密权重返回给各自的数据所有者。
- 最后,数据所有者协作解密接收到的数据以获得单独的更新权重。 该解密过程利用安全多方计算技术。
人们提出了另一种更复杂的方法来消除数据所有者在解密过程中进行通信的需要。 这涉及一个额外的实体,即授权中心(AU),并采用双重加密技术和多密钥全同态加密的组合。 步骤是:
- 数据所有者创建其公钥和密钥并加密其数据,然后将其发送到云端。 AU 还保留数据所有者密钥的副本。
- 云在收到加密数据但缺少评估密钥后,会向数据引入噪声并将其转发给AU。
- AU 使用数据所有者的密钥解密该数据,并使用单一公钥重新加密,然后将其发送回云端。
- 云现在可以使用这种统一加密的数据来计算加密和更新的权重。 完成后,结果将发送到 AU,以便使用数据所有者的个人公钥重新加密。
- 然后,每个数据所有者都会收到各自的结果,他们可以使用自己的密钥进行解密。
该系统已被证明可以维护语义安全,前提是使用的公钥系统在语义上也是安全的。 此外,只要云和 AU 不共谋,深度学习参数(如权重)的隐私就保持不变。
在最近的进展中,通过引入多方案全同态加密,对基本方法进行了改进。 这使得数据所有者在参与协作深度学习时可以采用不同的加密方案。 此外,与早期方法相比,某些激活函数的准确性有所增强,分类任务的整体准确性和速度也有所提高。
具有加密梯度的协作深度学习
协作深度学习领域的一种创新方法涉及使用加法同态加密。 该方法是对以前使用异步随机梯度下降(ASGD)作为学习方法的技术的增强。 这种早期的方法被称为“梯度选择性 ASGD”,因为它允许每个数据所有者决定在全球范围内共享哪些梯度,从而确保他们的隐私。
还有另一种方法,通过向梯度引入拉普拉斯噪声来合并差分隐私。 尽管采取了这些措施,但事实证明,即使梯度值进行了微小的修改,仍然有可能从所有者那里泄露敏感数据。
在使用 ASGD 的改进方法中,该过程可以概述为:
- 数据所有者从云端检索加密的权重,并使用其秘密密钥对其进行解密。
- 使用全局权重及其训练数据,数据所有者计算其深度学习模型中的梯度。
- 该梯度乘以学习率后,使用数据所有者的密钥进行加密,然后发送回云端。
- 然后,云使用数据所有者的加密数据更新全局权重,操作仅限于加法。
- 该方法的一个重要亮点是它对潜在梯度泄漏的鲁棒性。 即使云以好奇的意图运行,也无法访问梯度的信息。 此外,当数据所有者从云中解密结果时,结果与在未加密梯度上进行云操作时的预期结果完全一致。
机器学习在密码学中的安全影响
机器学习与密码学的集成引发了一些安全问题。 在本节中,我们简要总结了近年来与该主题相关的主要发现。
机器学习安全:2006 年的一项研究深入探讨了机器学习是否真正安全的问题。 这项研究介绍了对机器学习系统和技术的各种类型的攻击的分类。 此外,它还提供了针对这些攻击的防御措施,并提供了一个分析模型来说明攻击者的努力。
扩展的攻击分类:在他们之前的工作基础上,后续研究扩展了攻击的分类。 这项研究详细介绍了不同的攻击类别如何影响攻击者和防御者的成本。 它还使用统计垃圾邮件过滤器 SpamBayes 作为案例研究,对机器学习系统的攻击进行了全面回顾。
逃避攻击:2013 年的一项研究引入了逃避攻击的概念。 虽然与探索性完整性攻击相似,但规避攻击侧重于将对抗性数据引入基于机器学习的系统的训练数据中。 该研究强调了彻底评估机器学习对对抗性数据的抵抗力的重要性。
利用机器学习分类器:2013 年的另一项研究强调了一种可以操纵机器学习分类器来揭示信息的方法。 这项研究的重点是机器学习分类器无意或有意披露统计信息。 开发了一种独特的元分类器,经过训练可以破解其他分类器,并提取trac其训练集的有价值的信息。 此类攻击可用于创建高级分类器或提取trac秘密,从而侵犯知识产权。
对抗行为:对手可以通过改变自己的行为来响应这些方法,从而绕过学习方法。 对于能够抵御攻击并保证鲁棒性的学习技术的探索有限。 组织了题为“计算机安全的机器学习方法”的研讨会,以促进计算机安全和机器学习专家之间的讨论。 研讨会dent了几个研究重点,从传统的机器学习在安全领域的应用到安全学习的挑战,以及创建有保障的安全性的新的正式方法。
超越传统计算机安全:研讨会还dent了计算机安全传统领域之外的潜在应用。 这些应用程序可能会出现与数据驱动方法相关的安全问题,包括社交媒体垃圾邮件、抄袭检测、作者身份识别dent版权执法、计算机视觉(尤其是生物识别)和情感分析。
机器学习中的安全和隐私:2016 年的一项研究对机器学习中的安全和隐私问题进行了深入分析。 它引入了详细的机器学习威胁模型,在对抗框架内对攻击和防御进行分类。 训练的对抗性环境分为两大类:针对隐私的对抗性环境和针对完整性的对抗性环境。 对抗性设置中的推理也分为白盒和黑盒对手。 该研究最后讨论了实现稳健、私密且负责任的机器学习模型的路径。
机器学习在密码分析领域的最新进展
机器学习已经越来越多地融入密码分析领域,特别是在增强侧信道攻击的能力方面。 以下是其应用的简要概述:
机器学习的早期结合:进入该领域的最初尝试之一涉及使用最小二乘支持向量机 (LS-SVM) 学习算法。 该方法针对使用功耗作为旁路的高级加密标准 (AES) 的软件实现。 研究结果强调了机器学习算法参数对结果的关键作用。
提高准确性:随后的方法提倡使用机器学习来提高侧信道攻击的精度。 由于这些攻击基于密码系统硬件实现的物理指标,因此它们通常依赖于某些参数假设。 机器学习的引入提供了一种缓解这些假设的方法,特别是在处理高维特征向量时。
密码分析中的神经网络:另一种创新方法采用神经网络进行密码分析。 该策略训练神经网络在没有加密密钥的情况下解密密文,从而显着减少时间和某些加密标准所需的已知明文-密文对。
先前工作的扩展:在上述神经网络方法的基础上,另一项研究针对的是轻量级密码。 重点转移到发现密钥而不是明文。 神经网络的效率在减少轮数和整轮版本的密码上进行了测试,调整网络配置以最大限度地提高准确性。
分析加密流量:另一项研究深入研究了移动设备上加密网络流量的分析。 目标是从加密数据中辨别用户操作。 通过被动监控加密流量并应用先进的机器学习技术,他们可以以令人印象深刻的准确率推断用户操作。
侧信道攻击中的深度学习:探索深度学习来改进侧信道攻击。 目的是开发复杂的分析技术,以最大限度地减少模板攻击中的假设。 通过应用深度学习,在针对某些加密标准的旁道攻击中获得了更精确的结果。
对抗机器学习攻击:引入了一种独特的方法来阻止机器学习在轻量级身份验证中成为针对物理不可克隆功能(PUF)的武器。 该方法将基于 PUF 的轻量级身份验证与锁定技术相结合,确保机器学习无法成功提取trac的质询-响应对。
结论
机器学习与密码学的集成为增强安全性和优化流程开辟了新途径。 虽然它提供了有前途的解决方案,特别是在协作深度学习和密码分析方面,但仍存在需要解决的固有安全问题。 随着该领域的发展,研究人员和从业者必须意识到潜在的漏洞并努力创建强大、安全的系统。