NEUESTE NACHRICHTEN

Alephium warnt davor, bis auf Weiteres Liquidität abzuziehen, da Hacker 815.000 US-Dollar erbeutet haben

Nachrichten vom 30. Mai 2026
Zama: Der Einfrieren des Smarttracder cUSDC war ein Kollateralschaden des Overnight Finance-Rugpulls

Nachrichten vom 30. Mai 2026
Der ehemalige NBA-Veteran Tristan Thompson sorgt mit einer Klage über 2 Millionen Dollar und einem Ultimatum zur Vasektomie für Schlagzeilen

Nachrichten vom 30. Mai 2026
Hacker erbeuten 5,4 Millionen Dollar von Ethereum - Cosmos Brücke von Gravity

Nachrichten vom 30. Mai 2026

FÜR SIE AUSGEWÄHLT

WÖCHENTLICH

BLEIBEN SIE AN DER SPITZE

Die besten Krypto-Einblicke direkt in Ihren Posteingang.

Neue Datenschutzrisiken in der KI: Die Herausforderung der Speicherung von Informationen in Sprachmodellen

Von

John Palmer

Lesezeit: 2 Minuten , 29. November 2023

Das Auswendiglernrisiko von KI: Modelle wie ChatGPT können Trainingsdaten abrufen, was Bedenken hinsichtlich des Datenschutzes aufwirft.

Ein Divergenzangriff auf ChatGPT legt das Potenzial für den Abfluss sensibler Daten offen.

Größere KI-Modelle weisen eine höhere Neigung zum Speichern und Weitergeben privater Informationen auf.

Eine bahnbrechende Studie von Forschern von Google DeepMind, der University of Washington, der UC Berkeley und anderen Institutionen hat einen überraschenden Aspekt großer Sprachmodelle wie ChatGPT aufgedeckt: ihre Fähigkeit, spezifische Trainingsdaten zu speichern und zu reproduzieren. Dieses Phänomen, bekannt als „Memorisierung“, wirft erhebliche Datenschutzbedenken auf, insbesondere da diese Modelle häufig mit umfangreichen und vielfältigen Textdaten trainiert werden, die potenziell sensible Informationen enthalten.

Verständnis der Auswendiglernmethode für dietrac

Die Studie, die sich mit dem Thema „Tabellen-trac“ befasste, untersuchte, ob externe Akteure ohne Vorkenntnisse über den Trainingsdatensatz spezifische Lerndaten aus diesen Modellentrackönnen. Diese Speicherung von Daten ist nicht nur ein theoretisches Problem, sondern hat auch reale Auswirkungen auf den Datenschutz.

Forschungsmethodik und Ergebnisse

Die Forscher nutzten eine neuartige Methodik, indem sie umfangreiche Tokens aus verschiedenen Modellen generierten und diese mit den Trainingsdatensätzen verglichen, um Fälle von direktem Auswendiglernen zudent. Sie entwickelten eine einzigartige Methode für ChatGPT, den sogenannten „Divergenzangriff“. Dabei wird das Modell so lange aufgefordert, ein Wort zu sagen, bis es wiederholt auf auswendig gelernte Daten zurückgreift. Überraschenderweise zeigten Modelle, darunter auch ChatGPT, ein signifikantes Auswendiglernen und gaben auf gezielte Aufforderung hin ganze Abschnitte der Trainingsdaten wieder.

Der Divergenzangriff und ChatGPT

Für ChatGPT erwies sich der Divergenzangriff als besonders aufschlussreich. Die Forscher veranlassten das Modell, ein Wort mehrmals zu wiederholen, wodurch es von Standardantworten abwich und gespeicherte Daten ausgab. Diese Methode war zwar praktisch, aber aufgrund ihrer datenschutzrechtlichen Implikationen besorgniserregend, da sie die Möglichkeit aufzeigte, potenziell sensible Informationen zutrac.

Die Studie enthüllte alarmierenderweise, dass auswendig gelernte Daten persönliche Informationen wie E-Mail-Adressen und Telefonnummern enthalten können. Mithilfe von regulären Ausdrücken und Sprachmodell-Prompts analysierten die Forscher 15.000 Generationen auf Teilzeichenketten, diedentDaten (PII) ähnelten. Etwa 16,9 % der Generationen enthielten auswendig gelernte PII, wobei es sich in 85,8 % der Fälle um tatsächliche PII und nicht um halluzinierte Inhalte handelte.

Implikationen für die Gestaltung und Verwendung von Sprachmodellen

Diese Ergebnisse sind bedeutsam für die Entwicklung und Anwendung von Sprachmodellen. Aktuelle Techniken, selbst jene, die in ChatGPT eingesetzt werden, verhindern Datenlecks möglicherweise nicht ausreichend. Die Studie unterstreicht den Bedarf an robusteren Methoden zur Deduplizierung von Trainingsdaten und einem tieferen Verständnis des Einflusses der Modellkapazität auf das Auswendiglernen.

Die Kernmethode bestand darin, Texte mithilfe verschiedener Modelle zu generieren und diese Ausgaben mit den jeweiligen Trainingsdatensätzen der Modelle abzugleichen, um sie sich einzuprägen. Suffix-Arrays wurden für einen effizienten Abgleich verwendet, wodurch schnelle Teilstring-Suchen in einem großen Textkorpus ermöglicht wurden.

Umfangreichere Modelle, größere Risiken beim Auswendiglernen

Es zeigte sich ein bemerkenswerter Zusammenhang zwischen der Größe des Modells und seiner Fähigkeit zum Auswendiglernen. Größere Modelle wie GPT-Neo, LLaMA und ChatGPT wiesen eine höhere Wahrscheinlichkeit auf, auswendig gelernte Trainingsdaten zu generieren, was auf einen direkten Zusammenhang zwischen Modellkapazität und Auswendiglernen hindeutet.

Die Studie beleuchtet einen entscheidenden Aspekt der KI-Entwicklung: die Gewährleistung, dass leistungsstarke Modelle die Privatsphäre der Nutzer respektieren. Sie eröffnet neue Wege für Forschung und Entwicklung mit dem Schwerpunkt auf der Verbesserung des Datenschutzes in KI-Modellen, insbesondere in solchen, die in datenschutzsensiblen Anwendungen eingesetzt werden.

Da sich KI stetig weiterentwickelt, beleuchtet diese Studie einen wesentlichen Aspekt ihrer Entwicklung: den Bedarf an verbesserten Datenschutzmaßnahmen in Sprachmodellen. Die Erkenntnis, dass KI sensible Informationen speichern und potenziell weitergeben kann, erfordert sofortiges Handeln und fordert Entwickler und Forscher auf, Modelle zu entwickeln, die nicht nur leistungsstark sind, sondern auch die Privatsphäre der Nutzer schützen. Diese Forschung stellt einen wichtigen Schritt zum Verständnis und zur Minderung der mit KI und maschinellem Lernen verbundenen Datenschutzrisiken dar.

Lesen Sie Krypto-News nicht nur, sondern verstehen Sie sie. Abonnieren Sie unseren Newsletter. Er ist kostenlos.

Diesen Artikel teilen

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtronempfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführendent oder einen qualifizierten Fachmann zu konsultieren

John Palmer

John Murangiri kam mit fundierten Kenntnissen in der Marktanalyse zu Cryptopolitan . John (auch bekannt als JP) hat an der Universität Nairobi einen Bachelor-Abschluss in Massenkommunikation und Medienwissenschaften erworben. Zuvor hat er bereits fürBitcoinund Metacoingraph Analysen zum Kryptomarkt beigesteuert.

INHALTSVERZEICHNIS

1. Verständnis der Auswendiglernmethode für dietrac

2. Forschungsmethodik und Ergebnisse

3. Der Divergenzangriff und ChatGPT

4. Implikationen für die Gestaltung und Verwendung von Sprachmodellen

5. Umfangreichere Modelle, größere Risiken beim Auswendiglernen

Diesen Artikel teilen

MEHR … NACHRICHTEN

ALLE ANZEIGEN

Was ist Base? Das von Coinbase ins Leben gerufene Ethereum Layer-2-Netzwerk

21. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Dogecoin vs. Bitcoin: Wichtigste technische Unterschiede

20. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Was ist TVL (Total Value Locked) bei Kryptowährungen?

14. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Wie liest man ein Krypto-Whitepaper?

13. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Ripple vs. XRP vs. XRP Ledger: Was ist der Unterschied?

13. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Was ist eine Multisig-Wallet im Kryptobereich?

10. Oktober 2025 Krypto lernen: Leitfaden für Anfänger

DEEP CRYPTO
CRASH-KURS

Mit welchen Kryptowährungen kann man Geld verdienen?
Wie Sie Ihre Sicherheit mit einer digitalen Geldbörse erhöhen können (und welche sich tatsächlich lohnen)
Wenig bekannte Anlagestrategien, die Profis anwenden
Wie man mit dem Investieren in Kryptowährungen beginnt (welche Börsen man nutzen sollte, welche Kryptowährung am besten zum Kauf geeignet ist usw.)

Neue Datenschutzrisiken in der KI: Die Herausforderung der Speicherung von Informationen in Sprachmodellen

Verständnis der Auswendiglernmethode für dietrac

Forschungsmethodik und Ergebnisse

Der Divergenzangriff und ChatGPT

Implikationen für die Gestaltung und Verwendung von Sprachmodellen

Umfangreichere Modelle, größere Risiken beim Auswendiglernen

5 geniale Anwendungsmöglichkeiten von ChatGPT und was Sie damit anfangen sollten

93 % der Unternehmensführer bevorzugen KI-gestützte Lösungen für das Nachhaltigkeitsmanagement von Marken, Reuters

So unterstützt Macron Frankreichs dynamisches und produktives KI-Ökosystem

Bloomberg schätzt, dass der Markt für generative KI bis 2032 ein Volumen von 1,3 Billionen US-Dollar erreichen wird

Ein prägnanter Brief.
Jeden Tag.

Neue Datenschutzrisiken in der KI: Die Herausforderung der Speicherung von Informationen in Sprachmodellen

Verständnis der Auswendiglernmethode für dietrac

Forschungsmethodik und Ergebnisse

Der Divergenzangriff und ChatGPT

Implikationen für die Gestaltung und Verwendung von Sprachmodellen

Umfangreichere Modelle, größere Risiken beim Auswendiglernen

5 geniale Anwendungsmöglichkeiten von ChatGPT und was Sie damit anfangen sollten

93 % der Unternehmensführer bevorzugen KI-gestützte Lösungen für das Nachhaltigkeitsmanagement von Marken, Reuters

So unterstützt Macron Frankreichs dynamisches und produktives KI-Ökosystem

Bloomberg schätzt, dass der Markt für generative KI bis 2032 ein Volumen von 1,3 Billionen US-Dollar erreichen wird

Ein prägnanter Brief.Jeden Tag.

Ein prägnanter Brief.
Jeden Tag.