Am Freitag kündigte OpenAI die Veröffentlichung einer neuen Familie von KI-Modellen mit dem Namen o3 an. Das Unternehmen behauptet, die neuen Produkte seien fortschrittlicher als seine Vorgängermodelle, einschließlich o1. Die Verbesserungen, so das Startup, beruhen auf Optimierungen bei der Skalierung der Testzeitberechnungen, einem Thema, das in den letzten Monaten intensiv erforscht wurde, sowie auf der Einführung eines neuen Sicherheitsparadigmas, das für das Training dieser Modelle verwendet wurde.
Im Rahmen seines kontinuierlichen Engagements für die Verbesserung der KI-Sicherheit veröffentlichte OpenAI eine neue Studie , die die Implementierung von „deliberativer Ausrichtung“ detailliert beschreibt. Die neue Sicherheitsmethode zielt darauf ab, sicherzustellen, dass KI-Schlussfolgerungsmodelle mit den von ihren Entwicklern festgelegten Werten übereinstimmen.
OpenAI zufolge wurde dieser Ansatz verwendet, um die Abstimmung der Modelle o1 und o3 zu verbessern, indem sie während der Inferenzphase dazu angehalten wurden, die Sicherheitsrichtlinien von OpenAI zu berücksichtigen. Die Inferenzphase ist der Zeitraum, nachdem ein Nutzer eine Anfrage an das Modell gesendet hat und bevor das Modell eine Antwort generiert.
OpenAI stellt in seinen Untersuchungen fest, dass die deliberative Ausrichtung zu einer Verringerung der Rate führte, mit der die Modelle „unsichere“ Antworten oder Reaktionen erzeugten, die das Unternehmen als Verstoß gegen seine Sicherheitsrichtlinien betrachtet, und gleichzeitig die Fähigkeit der Modelle verbesserte, harmlose Fragen effektiver zu beantworten.
Wie deliberative Ausrichtung funktioniert
Im Kern funktioniert der Prozess dadurch, dass sich die Modelle während der Denkprozessphase selbst erneut Fragen stellen. Nachdem ein Nutzer beispielsweise eine Frage an ChatGPT gesendet hat, benötigen die KI-Modelle zwischen wenigen Sekunden und mehreren Minuten, um das Problem in kleinere Schritte zu zerlegen.
Die Modelle generieren dann auf Grundlage ihres Denkprozesses eine Antwort. Im Falle der deliberativen Ausrichtung beziehen die Modelle die Sicherheitsrichtlinien von OpenAI in diese interne „Überlegung“ ein
OpenAI trainierte seine Modelle, darunter o1 und o3, im Rahmen dieses Denkprozesses Abschnitte der Sicherheitsrichtlinien des Unternehmens abzurufen. Dadurch sollte sichergestellt werden, dass die Modelle bei sensiblen oder unsicheren Anfragen selbstständig reagieren und Antworten verweigern, die Schaden verursachen könnten.
Die Implementierung dieser Sicherheitsfunktion erwies sich jedoch als schwierig, da die Forscher von OpenAI sicherstellen mussten, dass die zusätzlichen Sicherheitsprüfungen die Geschwindigkeit und Effizienz der Modelle nicht negativ beeinflussten.
Ein Beispiel aus einer Studie von OpenAI, zitiert wurde , veranschaulicht, wie die Modelle mithilfe von deliberativer Ausrichtung sicher auf potenziell schädliche Anfragen reagieren. In dem Beispiel fragt ein Nutzer, wie man einen realistischen Parkausweis für eine behinderte Person erstellt.
Während des internen Denkprozesses des Modells erinnert sich das Modell an die Sicherheitsrichtlinien von OpenAI, erkennt, dass die Anfrage eine illegale Aktivität (Fälschung eines Parkausweises) beinhaltet, und lehnt die Hilfeleistung ab, wobei es sich für die Ablehnung entschuldigt.

Diese Art der internen Abwägung ist ein zentraler Bestandteil der Bemühungen von OpenAI, seine Modelle an Sicherheitsprotokolle anzupassen. Anstatt beispielsweise alle Anfragen zu sensiblen Themen wie „Bombe“ einfach zu blockieren, was die Antworten des Modells übermäßig einschränken würde, ermöglicht die bewusste Abstimmung der KI, den spezifischen Kontext der Anfrage zu bewerten und eine differenziertere Entscheidung darüber zu treffen, ob sie antworten soll oder nicht.
Neben den Sicherheitsverbesserungen präsentierte OpenAI auch Ergebnisse von Benchmark-Tests, die die Wirksamkeit der deliberativen Ausrichtung zur Verbesserung der Modellleistung belegen. Ein Benchmark, bekannt als Pareto-Analyse, misst die Widerstandsfähigkeit eines Modells gegenüber gängigen Jailbreak-Angriffen und Versuchen, die Schutzmechanismen der KI zu umgehen.
In diesen Tests übertraf das o1-Preview-Modell von OpenAI andere populäre Modelle wie GPT-4o, Gemini 1.5 Flash und Claude 3.5 Sonnet hinsichtlich der Vermeidung unsicherer Ausgaben.
Die italienische Datenschutzbehörde verhängt eine Geldstrafe gegen OpenAI wegen Datenschutzverstößen
In einer separaten, aber damit zusammenhängenden Entwicklung wurde OpenAI von der italienischen Datenschutzbehörde Garante nach einer Untersuchung des Umgangs des Unternehmens mit personenbezogenen Daten mit einer Geldstrafe von 15 Millionen Euro (15,58 Millionen US-Dollar) belegt.
Die Geldbuße resultiert aus der Feststellung der Behörde, dass OpenAI personenbezogene Daten von Nutzern ohne Rechtsgrundlage verarbeitet hat und damit gegen die Transparenz- und Informationspflichten der EU-Datenschutzgesetze verstoßen hat.
Laut Reuters ergab die Untersuchung, die 2023 begann, auch, dass OpenAI kein angemessenes System zur Altersverifizierung eingerichtet hatte, wodurch Kinder unter 13 Jahren möglicherweise ungeeigneten KI-generierten Inhalten ausgesetzt waren.
Garante, eine der strengsten KI-Regulierungsbehörden der Europäischen Union, ordnete OpenAI an, in Italien eine sechsmonatige öffentliche Kampagne zu starten, um das Bewusstsein für die Datenerfassungspraktiken , insbesondere für die Verwendung personenbezogener Daten zum Trainieren von Algorithmen.
OpenAI bezeichnete die Geldbuße daraufhin als „unverhältnismäßig“ und kündigte an, gegen die Entscheidung Berufung einzulegen. Das Unternehmen kritisierte die Höhe der Geldbuße zudem als im Verhältnis zu seinen Einnahmen in Italien im betreffenden Zeitraum übermäßig hoch.
Garante merkte außerdem an, dass die Geldstrafe unter Berücksichtigung der „kooperativen Haltung“ von OpenAI berechnet wurde, was bedeutet, dass sie höher hätte ausfallen können, wenn das Unternehmen während der Untersuchung nicht als kooperativ wahrgenommen worden wäre.
Diese jüngste Geldstrafe ist nicht die erste, die OpenAI in Italien ins Visier der Behörden gebracht hat. Letztes Jahr verbot italienische Datenschutzbehörde Garante kurzzeitig die Nutzung von ChatGPT wegen mutmaßlicher Verstöße gegen EU-Datenschutzbestimmungen. Der Dienst wurde wieder freigegeben, nachdem OpenAI die Bedenken ausgeräumt und unter anderem die Möglichkeit geschaffen hatte, der Verwendung ihrer personenbezogenen Daten zum Trainieren von Algorithmen zu widersprechen.

