Your bank is using your money. You’re getting the scraps.WATCH FREE

Neue Datenschutzrisiken in der KI: Die Herausforderung der Speicherung von Informationen in Sprachmodellen

In diesem Beitrag:

  • Das Auswendiglernrisiko von KI: Modelle wie ChatGPT können Trainingsdaten abrufen, was Bedenken hinsichtlich des Datenschutzes aufwirft.
  • Ein Divergenzangriff auf ChatGPT legt das Potenzial für den Abfluss sensibler Daten offen.
  • Größere KI-Modelle weisen eine höhere Neigung zum Speichern und Weitergeben privater Informationen auf.

Eine bahnbrechende Studie von Forschern von Google DeepMind, der University of Washington, der UC Berkeley und anderen Institutionen hat einen überraschenden Aspekt großer Sprachmodelle wie ChatGPT aufgedeckt: ihre Fähigkeit, spezifische Trainingsdaten zu speichern und zu reproduzieren. Dieses Phänomen, bekannt als „Memorisierung“, wirft erhebliche Datenschutzbedenken auf, insbesondere da diese Modelle häufig mit umfangreichen und vielfältigen Textdaten trainiert werden, die potenziell sensible Informationen enthalten.

Verständnis der Auswendiglernmethode für dietrac

Die Studie, die sich mit dem Thema „Tabellen-trac“ befasste, untersuchte, ob externe Akteure ohne Vorkenntnisse über den Trainingsdatensatz spezifische Lerndaten aus diesen Modellentrackönnen. Diese Speicherung von Daten ist nicht nur ein theoretisches Problem, sondern hat auch reale Auswirkungen auf den Datenschutz.

Forschungsmethodik und Ergebnisse

Die Forscher nutzten eine neuartige Methodik, indem sie umfangreiche Tokens aus verschiedenen Modellen generierten und diese mit den Trainingsdatensätzen verglichen, um Fälle von direktem Auswendiglernen zudent. Sie entwickelten eine einzigartige Methode für ChatGPT, den sogenannten „Divergenzangriff“. Dabei wird das Modell so lange aufgefordert, ein Wort zu sagen, bis es wiederholt auf auswendig gelernte Daten zurückgreift. Überraschenderweise zeigten Modelle, darunter auch ChatGPT, ein signifikantes Auswendiglernen und gaben auf gezielte Aufforderung hin ganze Abschnitte der Trainingsdaten wieder.

Der Divergenzangriff und ChatGPT

Für ChatGPT erwies sich der Divergenzangriff als besonders aufschlussreich. Die Forscher veranlassten das Modell, ein Wort mehrmals zu wiederholen, wodurch es von Standardantworten abwich und gespeicherte Daten ausgab. Diese Methode war zwar praktisch, aber aufgrund ihrer datenschutzrechtlichen Implikationen besorgniserregend, da sie die Möglichkeit aufzeigte, potenziell sensible Informationen zutrac.

Siehe auch:  Portfolio eines Krypto-Unternehmers aus Singapur durch als Spiel getarnte Malware vernichtet

Die Studie enthüllte alarmierenderweise, dass auswendig gelernte Daten persönliche Informationen wie E-Mail-Adressen und Telefonnummern enthalten können. Mithilfe von regulären Ausdrücken und Sprachmodell-Prompts analysierten die Forscher 15.000 Generationen auf Teilzeichenketten, diedentDaten (PII) ähnelten. Etwa 16,9 % der Generationen enthielten auswendig gelernte PII, wobei es sich in 85,8 % der Fälle um tatsächliche PII und nicht um halluzinierte Inhalte handelte.

Implikationen für die Gestaltung und Verwendung von Sprachmodellen

Diese Ergebnisse sind bedeutsam für die Entwicklung und Anwendung von Sprachmodellen. Aktuelle Techniken, selbst jene, die in ChatGPT eingesetzt werden, verhindern Datenlecks möglicherweise nicht ausreichend. Die Studie unterstreicht den Bedarf an robusteren Methoden zur Deduplizierung von Trainingsdaten und einem tieferen Verständnis des Einflusses der Modellkapazität auf das Auswendiglernen.

Die Kernmethode bestand darin, Texte mithilfe verschiedener Modelle zu generieren und diese Ausgaben mit den jeweiligen Trainingsdatensätzen der Modelle abzugleichen, um sie sich einzuprägen. Suffix-Arrays wurden für einen effizienten Abgleich verwendet, wodurch schnelle Teilstring-Suchen in einem großen Textkorpus ermöglicht wurden.

Umfangreichere Modelle, größere Risiken beim Auswendiglernen

Es zeigte sich ein bemerkenswerter Zusammenhang zwischen der Größe des Modells und seiner Fähigkeit zum Auswendiglernen. Größere Modelle wie GPT-Neo, LLaMA und ChatGPT wiesen eine höhere Wahrscheinlichkeit auf, auswendig gelernte Trainingsdaten zu generieren, was auf einen direkten Zusammenhang zwischen Modellkapazität und Auswendiglernen hindeutet.

Die Studie beleuchtet einen entscheidenden Aspekt der KI-Entwicklung: die Gewährleistung, dass leistungsstarke Modelle die Privatsphäre der Nutzer respektieren. Sie eröffnet neue Wege für Forschung und Entwicklung mit dem Schwerpunkt auf der Verbesserung des Datenschutzes in KI-Modellen, insbesondere in solchen, die in datenschutzsensiblen Anwendungen eingesetzt werden.

Siehe auch  Maker-Preisanalyse: Bullen rüsten sich, um MKR über 2500 $ zu treiben

Da sich KI stetig weiterentwickelt, beleuchtet diese Studie einen wesentlichen Aspekt ihrer Entwicklung: den Bedarf an verbesserten Datenschutzmaßnahmen in Sprachmodellen. Die Erkenntnis, dass KI sensible Informationen speichern und potenziell weitergeben kann, erfordert sofortiges Handeln und fordert Entwickler und Forscher auf, Modelle zu entwickeln, die nicht nur leistungsstark sind, sondern auch die Privatsphäre der Nutzer schützen. Diese Forschung stellt einen wichtigen Schritt zum Verständnis und zur Minderung der mit KI und maschinellem Lernen verbundenen Datenschutzrisiken dar.

Ihre Schlüssel, Ihre Karte. Geben Sie aus, ohne die Kontrolle abzugeben, und Cash über 8 % Rendite auf Ihr Guthaben .

Link teilen:

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wir empfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführen tron / oder einen qualifizierten Fachmann zu konsultieren dent

Meistgelesen

Meistgelesene Artikel werden geladen...

Bleiben Sie über Krypto-News auf dem Laufenden und erhalten Sie täglich Updates in Ihren Posteingang

Empfehlung der Redaktion

Artikel der Redaktionsauswahl werden geladen...

- Der Krypto-Newsletter, der Sie immer einen Schritt voraus hält -

Die Märkte bewegen sich schnell.

Wir sind schneller.

Abonnieren Sie Cryptopolitan Daily und erhalten Sie zeitnahe, prägnante und relevante Krypto-Einblicke direkt in Ihren Posteingang.

Jetzt anmelden und
keinen Film mehr verpassen.

Steig ein. Informiere dich.
Verschaffe dir einen Vorsprung.

Abonnieren Sie CryptoPolitan