Im Bereich des Deep Learning gibt es Fälle, in denen Daten aus einer einzigen Quelle für das Training eines Modells nicht ausreichen. Dies hat bei Dateninhabern zu einem wachsenden Interesse geführt, nicht nur ihre eigenen Daten zu nutzen, sondern auch Daten aus anderen Quellen einzubeziehen. Ein Ansatz hierfür ist die Verwendung eines Cloud-basierten Modells, das aus mehreren Datenquellen lernen kann. Ein zentrales Anliegen ist jedoch der Schutz sensibler Informationen.
Daraus entstand das Konzept des kollaborativen Deep Learning, das auf zwei Hauptstrategien basiert: dem Austausch verschlüsselter Trainingsdaten und dem Austausch verschlüsselter Gradienten. Das übergeordnete Prinzip ist die Verwendung vollständig homomorpher Verschlüsselung, um sicherzustellen, dass alle Daten, einschließlich der für Operationen in der Cloud verwendeten, während des gesamten Lernprozesses verschlüsselt bleiben.
Verschlüsselte Daten werden geteilt, um die Privatsphäre zu gewährleisten
Es wurden innovative Ansätze entwickelt, um den Datenschutz beim kollaborativen Deep Learning zu gewährleisten. Eine dieser Methoden bezieht sowohl die Dateneigentümer als auch ein Cloud-basiertes System ein. So funktioniert es:
- Dateneigentümer erstellen öffentliche Schlüssel, geheime Schlüssel und Auswertungsschlüssel. Anschließend verschlüsseln sie ihre Daten (wie Trainingsdaten und gewünschte Ziele) mit ihren öffentlichen Schlüsseln und leiten diese verschlüsselten Daten an die Cloud weiter.
- Nach dem Empfang dieser verschlüsselten Daten trainiert die Cloud das Modell mithilfe der von den Dateneigentümern bereitgestellten öffentlichen Schlüssel und Evaluierungsschlüssel.
- Sobald der Lernprozess die verschlüsselten Gewichte aktualisiert hat, sendet die Cloud diese verschlüsselten Gewichte an die jeweiligen Dateneigentümer zurück.
- Abschließend entschlüsseln die Dateneigentümer die empfangenen Daten gemeinsam, um die aktualisierten individuellen Gewichte zu erhalten. Dieser Entschlüsselungsprozess nutzt sichere Mehrparteienberechnungsverfahren.
Um die Kommunikation zwischen Dateneigentümern während des Entschlüsselungsprozesses zu vermeiden, wurde ein weiteres, komplexeres Verfahren vorgeschlagen. Dieses Verfahren beinhaltet eine zusätzliche Instanz, ein autorisiertes Zentrum (AU), und verwendet eine Kombination aus doppelter Verschlüsselung und vollständig homomorpher Mehrschlüsselverschlüsselung. Die Schritte sind:
- Dateneigentümer erstellen ihre öffentlichen und geheimen Schlüssel und verschlüsseln ihre Daten, die anschließend in die Cloud gesendet werden. Die AU speichert ebenfalls eine Kopie der geheimen Schlüssel der Dateneigentümer.
- Nachdem die Cloud die verschlüsselten Daten erhalten hat, ihr aber die Auswertungsschlüssel fehlen, fügt sie den Daten Rauschen hinzu und leitet sie an die AU weiter.
- Die AU entschlüsselt diese Daten mithilfe der geheimen Schlüssel der Dateneigentümer und verschlüsselt sie anschließend mit einem einzigen öffentlichen Schlüssel erneut, bevor sie sie zurück in die Cloud sendet.
- Die Cloud kann nun mithilfe dieser einheitlich verschlüsselten Daten verschlüsselte und aktualisierte Gewichte berechnen. Anschließend werden die Ergebnisse zur erneuten Verschlüsselung mit den individuellen öffentlichen Schlüsseln der Dateneigentümer an die AU gesendet.
- Jeder Dateneigentümer erhält dann seine jeweiligen Ergebnisse, die er mithilfe seiner geheimen Schlüssel entschlüsseln kann.
Dieses System gewährleistet semantische Sicherheit, sofern das verwendete Public-Key-System ebenfalls semantisch sicher ist. Darüber hinaus bleibt die Vertraulichkeit von Deep-Learning-Parametern wie Gewichtungen gewahrt, solange Cloud und AU nicht zusammenarbeiten.
Jüngste Fortschritte haben die Basismethode durch die Einführung einer vollständig homomorphen Verschlüsselung mit mehreren Schemata verbessert. Dies ermöglicht es Dateninhabern, bei der Teilnahme an kollaborativem Deep Learning verschiedene Verschlüsselungsverfahren einzusetzen. Darüber hinaus wurden die Genauigkeit bestimmter Aktivierungsfunktionen sowie die Gesamtgenauigkeit und -geschwindigkeit von Klassifizierungsaufgaben im Vergleich zu früheren Methoden verbessert.
Kollaboratives Deep Learning mit verschlüsselten Gradienten
Ein innovativer Ansatz im Bereich des kollaborativen Deep Learning nutzt additiv homomorphe Verschlüsselung. Diese Methode wurde als Verbesserung gegenüber früheren Techniken entwickelt, die asynchronen stochastischen Gradientenabstieg (ASGD) als Lernverfahren verwendeten. Dieser frühere Ansatz wurde als „gradientenselektiver ASGD“ bezeichnet, da er es jedem Dateneigentümer ermöglichte, selbst zu entscheiden, welche Gradienten global geteilt werden sollten, wodurch die Privatsphäre gewahrt blieb.
Es gab auch eine weitere Methode, die differentielle Privatsphäre durch die Einführung von Laplace-Rauschen in die Gradienten berücksichtigte. Trotz dieser Maßnahmen zeigte sich, dass selbst bei geringfügigen Änderungen der Gradientenwerte weiterhin ein Risiko für das Abfließen sensibler Daten der Eigentümer bestand.
Bei der verbesserten Methode mit ASGD lässt sich der Prozess wie folgt beschreiben:
- Die Dateneigentümer rufen die verschlüsselten Gewichte aus der Cloud ab und entschlüsseln sie mit ihrem geheimen Schlüssel.
- Der Dateninhaber berechnet mithilfe der globalen Gewichtung und seiner Trainingsdaten den Gradienten innerhalb seines Deep-Learning-Modells.
- Dieser Gradient wird, nachdem er mit der Lernrate multipliziert wurde, mit dem geheimen Schlüssel des Dateneigentümers verschlüsselt und dann zurück in die Cloud gesendet.
- Anschließend aktualisiert die Cloud das globale Gewicht mithilfe der verschlüsselten Daten der Dateneigentümer, wobei die Operation auf Addition beschränkt ist.
- Ein wesentlicher Vorteil dieser Methode ist ihre Robustheit gegenüber potenziellen Gradientenlecks. Selbst wenn die Cloud mit einer unlauteren Absicht arbeitet, kann sie nicht auf die Gradienteninformationen zugreifen. Wenn der Dateninhaber die Ergebnisse aus der Cloud entschlüsselt, stimmen diese exakt mit den Erwartungen überein, die sich bei einer Durchführung der Cloud-Operationen mit einem unverschlüsselten Gradienten ergeben würden.
Sicherheitsimplikationen von maschinellem Lernen in der Kryptographie
Die Integration von maschinellem Lernen in die Kryptographie hat verschiedene Sicherheitsbedenken aufgeworfen. In diesem Abschnitt fassen wir die wichtigsten Erkenntnisse zu diesem Thema der letzten Zeit kurz zusammen.
Sicherheit von maschinellem Lernen : Eine Studie aus dem Jahr 2006 untersuchte die Frage, ob maschinelles Lernen tatsächlich sicher sein kann. Diese Studie führte eine Klassifizierung verschiedener Angriffsarten auf Systeme und Techniken des maschinellen Lernens ein. Darüber hinaus präsentierte sie Abwehrmechanismen gegen diese Angriffe und stellte ein analytisches Modell zur Verfügung, das die Vorgehensweise der Angreifer veranschaulicht.
Erweiterte Taxonomie von Angriffen : Aufbauend auf früheren Arbeiten erweiterte eine Folgestudie die Klassifizierung von Angriffen. Diese Forschung beschrieb detailliert, wie sich verschiedene Angriffsklassen auf die Kosten für Angreifer und Verteidiger auswirken. Sie bot zudem einen umfassenden Überblick über Angriffe auf Systeme des maschinellen Lernens und nutzte den statistischen Spamfilter SpamBayes als Fallbeispiel.
Ausweichangriffe : Eine Studie aus dem Jahr 2013 führte das Konzept der Ausweichangriffe ein. Diese weisen zwar Ähnlichkeiten zu explorativen Integritätsangriffen auf, konzentrieren sich aber darauf, schädliche Daten in die Trainingsdaten von Systemen des maschinellen Lernens einzuschleusen. Die Studie betonte die Wichtigkeit einer gründlichen Bewertung der Widerstandsfähigkeit von maschinellem Lernen gegenüber schädlichen Daten.
Ausnutzung von Machine-Learning-Klassifikatoren : Eine weitere Studie aus dem Jahr 2013 beleuchtete eine Methode, mit der Machine-Learning-Klassifikatoren manipuliert werden können, um Informationen preiszugeben. Im Mittelpunkt dieser Forschung stand die unbeabsichtigte oder beabsichtigte Offenlegung statistischer Informationen aus Machine-Learning-Klassifikatoren. Ein spezieller Meta-Klassifikator wurde entwickelt und darauf trainiert, andere Klassifikatoren zu hacken und wertvolle Informationen über deren Trainingsdatensätze zu extrahieren. Solche Angriffe könnten genutzt werden, um überlegene Klassifikatoren zu erstellen oder trac zu trac
Adversarial Behavior : Angreifer können Lernverfahren potenziell umgehen, indem sie ihr Verhalten entsprechend anpassen. Bisher wurden Lerntechniken, die Angriffen mit garantierter Robustheit standhalten, nur unzureichend erforscht. Um den Austausch zwischen Experten für Computersicherheit und maschinelles Lernen zu fördern, wurde ein Workshop mit dem Titel „Maschinelle Lernmethoden für Computersicherheit“ organisiert. Im Rahmen des Workshops dent , die von traditionellen Anwendungen des maschinellen Lernens im Bereich der Sicherheit über Herausforderungen beim sicheren Lernen bis hin zur Entwicklung neuer formaler Methoden mit garantierter Sicherheit reichen.
Jenseits der traditionellen Computersicherheit : Der Workshop dent potenzielle Anwendungsbereiche jenseits des herkömmlichen Bereichs der Computersicherheit. Zu diesen Anwendungsbereichen, bei denen Sicherheitsbedenken im Zusammenhang mit datengetriebenen Methoden auftreten könnten, gehören Social-Media-Spam, Plagiatserkennung, Urheberidentifizierung, dent von Urheberrechten, Computer Vision (insbesondere Biometrie) und Stimmungsanalyse.
Sicherheit und Datenschutz im maschinellen Lernen : Eine Studie aus dem Jahr 2016 lieferte eine detaillierte Analyse der Sicherheits- und Datenschutzbedenken im maschinellen Lernen. Sie stellte ein detailliertes Bedrohungsmodell für maschinelles Lernen vor und kategorisierte Angriffe und Abwehrmaßnahmen innerhalb eines adversariellen Modells. Die adversariellen Umgebungen für das Training wurden in zwei Hauptkategorien unterteilt: solche, die auf Datenschutz und solche, die auf Integrität abzielen. Inferenz in adversariellen Umgebungen wurde ebenfalls in White-Box- und Black-Box-Angreifer kategorisiert. Die Studie schloss mit einer Diskussion über den Weg zu einem robusten, datenschutzfreundlichen und nachvollziehbaren Modell für maschinelles Lernen.
Bisherige Fortschritte des maschinellen Lernens in der Kryptoanalyse
Maschinelles Lernen findet zunehmend Anwendung im Bereich der Kryptoanalyse, insbesondere zur Verbesserung der Fähigkeiten von Seitenkanalangriffen. Hier ein kurzer Überblick über seine Anwendungsgebiete:
Frühe Integration von maschinellem Lernen : Einer der ersten Ansätze in diesem Bereich nutzte den Least Squares Support Vector Machine (LS-SVM)-Lernalgorithmus. Diese Methode zielte auf die Software-Implementierung des Advanced Encryption Standard (AES) ab und nutzte den Stromverbrauch als Seitenkanal. Die Ergebnisse unterstrichen die entscheidende Rolle der Parameter des maschinellen Lernalgorithmus für die Resultate.
Genauigkeitssteigerung : Ein nachfolgender Ansatz befürwortet den Einsatz von maschinellem Lernen, um die Präzision von Seitenkanalangriffen zu erhöhen. Da diese Angriffe auf den physikalischen Metriken von Hardware-Implementierungen kryptografischer Systeme basieren, beruhen sie häufig auf bestimmten parametrischen Annahmen. Der Einsatz von maschinellem Lernen bietet eine Möglichkeit, diese Annahmen abzuschwächen, insbesondere bei der Verarbeitung hochdimensionaler Merkmalsvektoren.
Neuronale Netze in der Kryptoanalyse : Eine weitere innovative Methode nutzte ein neuronales Netz zur Kryptoanalyse. Diese Strategie trainierte das neuronale Netz, um Chiffretexte ohne den Verschlüsselungsschlüssel zu entschlüsseln, was zu einer deutlichen Reduzierung der benötigten Zeit und der Anzahl bekannter Klartext-Chiffretext-Paare für bestimmte Verschlüsselungsstandards führte.
Aufbauend auf früheren Arbeiten : Eine weitere Studie, die auf dem zuvor erwähnten Ansatz mit neuronalen Netzen aufbaute, befasste sich mit einem ressourcenschonenden Verschlüsselungsverfahren. Der Fokus verlagerte sich dabei von der Ermittlung des Klartextes hin zur Schlüsselgewinnung. Die Effizienz des neuronalen Netzes wurde sowohl an verkürzten als auch an vollständigen Versionen des Verschlüsselungsverfahrens getestet, wobei die Netzwerkkonfigurationen optimiert wurden, um die Genauigkeit zu maximieren.
Analyse verschlüsselten Datenverkehrs : Eine andere Studie befasste sich mit der Analyse verschlüsselten Netzwerkverkehrs auf Mobilgeräten. Ziel war es, Nutzeraktionen aus den verschlüsselten Daten abzuleiten. Durch passives Überwachen des verschlüsselten Datenverkehrs und Anwendung fortschrittlicher maschineller Lernverfahren konnten die Forscher Nutzeraktionen mit beeindruckender Genauigkeit ermitteln.
Deep Learning bei Seitenkanalangriffen : Deep Learning wurde zur Verfeinerung von Seitenkanalangriffen eingesetzt. Ziel war die Entwicklung ausgefeilter Profiling-Techniken, um die Annahmen bei Template-Angriffen zu minimieren. Durch die Anwendung von Deep Learning konnten präzisere Ergebnisse bei Seitenkanalangriffen auf bestimmte Verschlüsselungsstandards erzielt werden.
Abwehr von Angriffen durch maschinelles Lernen : Um zu verhindern, dass maschinelles Lernen gegen Physical Unclonable Functions (PUFs) in der ressourcenschonenden Authentifizierung missbraucht wird, wurde ein neuartiger Ansatz entwickelt. Diese Methode kombiniert eine ressourcenschonende, PUF-basierte Authentifizierung mit einer Sperrtechnik, die sicherstellt, dass maschinelles Lernen das neue Challenge-Response-Paar trac
Abschluss
Die Integration von maschinellem Lernen in die Kryptographie hat neue Wege zur Verbesserung der Sicherheit und Optimierung von Prozessen eröffnet. Obwohl sie vielversprechende Lösungen bietet, insbesondere im Bereich des kollaborativen Deep Learning und der Kryptoanalyse, bestehen inhärente Sicherheitsbedenken, die angegangen werden müssen. Angesichts der Weiterentwicklung dieses Feldes ist es für Forscher und Anwender unerlässlich, potenzielle Schwachstellen zu erkennen und an der Entwicklung robuster, sicherer Systeme zu arbeiten.

