OpenAI will die KI-Modelle o1 und o3 mit einem neuen Sicherheitstrainingsparadigma weiterentwickeln

By Florence Muchai
Aktualisiert: 23. Dezember 2024, 11:48 Uhr UTC

3 Minuten Lesezeit

Fügen Sie uns als bevorzugte Quelle bei Google hinzu

632216

Inhalt

1. Wie deliberative Ausrichtung funktioniert

2. Die italienische Datenschutzbehörde verhängt eine Geldstrafe gegen OpenAI wegen Datenschutzverstößen

Link teilen:

In diesem Beitrag:

OpenAI stellt o3-Modelle mit neuem Sicherheitstraining mittels „deliberativer Ausrichtung“ vor und verbessert so die Übereinstimmung der KI-Schlussfolgerungen mit den Werten der Entwickler.
Durch überlegte Ausrichtung werden Antworten, die als unsicher gelten, reduziert, indem Modelle sich selbst regulieren und während des Denkprozesses auf Sicherheitsrichtlinien zurückgreifen.
Die Modelle o1 und o3 sind GPT-4o, Gemini 1.5 Flash und Claude 3.5 Sonnet in Benchmark-Tests hinsichtlich der Widerstandsfähigkeit gegen gängige Jailbreaks und unsichere Ausgaben überlegen.

Am Freitag kündigte OpenAI die Veröffentlichung einer neuen Familie von KI-Modellen mit dem Namen o3 an. Das Unternehmen behauptet, die neuen Produkte seien fortschrittlicher als seine Vorgängermodelle, einschließlich o1. Die Verbesserungen, so das Startup, beruhen auf Optimierungen bei der Skalierung der Testzeitberechnungen, einem Thema, das in den letzten Monaten intensiv erforscht wurde, sowie auf der Einführung eines neuen Sicherheitsparadigmas, das für das Training dieser Modelle verwendet wurde.

Im Rahmen seines kontinuierlichen Engagements für die Verbesserung der KI-Sicherheit veröffentlichte OpenAI eine neue Studie , die die Implementierung von „deliberativer Ausrichtung“ detailliert beschreibt. Die neue Sicherheitsmethode zielt darauf ab, sicherzustellen, dass KI-Schlussfolgerungsmodelle mit den von ihren Entwicklern festgelegten Werten übereinstimmen.

OpenAI zufolge wurde dieser Ansatz verwendet, um die Abstimmung der Modelle o1 und o3 zu verbessern, indem sie während der Inferenzphase dazu angehalten wurden, die Sicherheitsrichtlinien von OpenAI zu berücksichtigen. Die Inferenzphase ist der Zeitraum, nachdem ein Nutzer eine Anfrage an das Modell gesendet hat und bevor das Modell eine Antwort generiert.

OpenAI stellt in seinen Untersuchungen fest, dass die deliberative Ausrichtung zu einer Verringerung der Rate führte, mit der die Modelle „unsichere“ Antworten oder Reaktionen erzeugten, die das Unternehmen als Verstoß gegen seine Sicherheitsrichtlinien betrachtet, und gleichzeitig die Fähigkeit der Modelle verbesserte, harmlose Fragen effektiver zu beantworten.

Wie deliberative Ausrichtung funktioniert

Im Kern funktioniert der Prozess dadurch, dass sich die Modelle während der Denkprozessphase selbst erneut Fragen stellen. Nachdem ein Nutzer beispielsweise eine Frage an ChatGPT gesendet hat, benötigen die KI-Modelle zwischen wenigen Sekunden und mehreren Minuten, um das Problem in kleinere Schritte zu zerlegen.

Die Modelle generieren dann auf Grundlage ihres Denkprozesses eine Antwort. Im Falle der deliberativen Ausrichtung beziehen die Modelle die Sicherheitsrichtlinien von OpenAI in diese interne „Überlegung“ ein

Siehe auch: Microsoft-Produkt-Hack trifft US-Regierung und staatliche Behörden bei globalem Cyberangriff

OpenAI trainierte seine Modelle, darunter o1 und o3, im Rahmen dieses Denkprozesses Abschnitte der Sicherheitsrichtlinien des Unternehmens abzurufen. Dadurch sollte sichergestellt werden, dass die Modelle bei sensiblen oder unsicheren Anfragen selbstständig reagieren und Antworten verweigern, die Schaden verursachen könnten.

Die Implementierung dieser Sicherheitsfunktion erwies sich jedoch als schwierig, da die Forscher von OpenAI sicherstellen mussten, dass die zusätzlichen Sicherheitsprüfungen die Geschwindigkeit und Effizienz der Modelle nicht negativ beeinflussten.

Ein Beispiel aus einer Studie von OpenAI, zitiert wurde , veranschaulicht, wie die Modelle mithilfe von deliberativer Ausrichtung sicher auf potenziell schädliche Anfragen reagieren. In dem Beispiel fragt ein Nutzer, wie man einen realistischen Parkausweis für eine behinderte Person erstellt.

Während des internen Denkprozesses des Modells erinnert sich das Modell an die Sicherheitsrichtlinien von OpenAI, erkennt, dass die Anfrage eine illegale Aktivität (Fälschung eines Parkausweises) beinhaltet, und lehnt die Hilfeleistung ab, wobei es sich für die Ablehnung entschuldigt.

Diese Art der internen Abwägung ist ein zentraler Bestandteil der Bemühungen von OpenAI, seine Modelle an Sicherheitsprotokolle anzupassen. Anstatt beispielsweise alle Anfragen zu sensiblen Themen wie „Bombe“ einfach zu blockieren, was die Antworten des Modells übermäßig einschränken würde, ermöglicht die bewusste Abstimmung der KI, den spezifischen Kontext der Anfrage zu bewerten und eine differenziertere Entscheidung darüber zu treffen, ob sie antworten soll oder nicht.

Neben den Sicherheitsverbesserungen präsentierte OpenAI auch Ergebnisse von Benchmark-Tests, die die Wirksamkeit der deliberativen Ausrichtung zur Verbesserung der Modellleistung belegen. Ein Benchmark, bekannt als Pareto-Analyse, misst die Widerstandsfähigkeit eines Modells gegenüber gängigen Jailbreak-Angriffen und Versuchen, die Schutzmechanismen der KI zu umgehen.

In diesen Tests übertraf das o1-Preview-Modell von OpenAI andere populäre Modelle wie GPT-4o, Gemini 1.5 Flash und Claude 3.5 Sonnet hinsichtlich der Vermeidung unsicherer Ausgaben.

Siehe auch: SAG-AFTRA und Plattenfirmen erzielen Einigung zum Schutz von Künstlern vor KI

Die italienische Datenschutzbehörde verhängt eine Geldstrafe gegen OpenAI wegen Datenschutzverstößen

In einer separaten, aber damit zusammenhängenden Entwicklung wurde OpenAI von der italienischen Datenschutzbehörde Garante nach einer Untersuchung des Umgangs des Unternehmens mit personenbezogenen Daten mit einer Geldstrafe von 15 Millionen Euro (15,58 Millionen US-Dollar) belegt.

Die Geldbuße resultiert aus der Feststellung der Behörde, dass OpenAI personenbezogene Daten von Nutzern ohne Rechtsgrundlage verarbeitet hat und damit gegen die Transparenz- und Informationspflichten der EU-Datenschutzgesetze verstoßen hat.

Laut Reuters ergab die Untersuchung, die 2023 begann, auch, dass OpenAI kein angemessenes System zur Altersverifizierung eingerichtet hatte, wodurch Kinder unter 13 Jahren möglicherweise ungeeigneten KI-generierten Inhalten ausgesetzt waren.

Garante, eine der strengsten KI-Regulierungsbehörden der Europäischen Union, ordnete OpenAI an, in Italien eine sechsmonatige öffentliche Kampagne zu starten, um das Bewusstsein für die Datenerfassungspraktiken , insbesondere für die Verwendung personenbezogener Daten zum Trainieren von Algorithmen.

OpenAI bezeichnete die Geldbuße daraufhin als „unverhältnismäßig“ und kündigte an, gegen die Entscheidung Berufung einzulegen. Das Unternehmen kritisierte die Höhe der Geldbuße zudem als im Verhältnis zu seinen Einnahmen in Italien im betreffenden Zeitraum übermäßig hoch.

Garante merkte außerdem an, dass die Geldstrafe unter Berücksichtigung der „kooperativen Haltung“ von OpenAI berechnet wurde, was bedeutet, dass sie höher hätte ausfallen können, wenn das Unternehmen während der Untersuchung nicht als kooperativ wahrgenommen worden wäre.

Diese jüngste Geldstrafe ist nicht die erste, die OpenAI in Italien ins Visier der Behörden gebracht hat. Letztes Jahr verbot italienische Datenschutzbehörde Garante kurzzeitig die Nutzung von ChatGPT wegen mutmaßlicher Verstöße gegen EU-Datenschutzbestimmungen. Der Dienst wurde wieder freigegeben, nachdem OpenAI die Bedenken ausgeräumt und unter anderem die Möglichkeit geschaffen hatte, der Verwendung ihrer personenbezogenen Daten zum Trainieren von Algorithmen zu widersprechen.

Ihre Schlüssel, Ihre Karte. Geben Sie aus, ohne die Kontrolle abzugeben, und Cash über 8 % Rendite auf Ihr Guthaben .

Link teilen:

Haftungsausschluss lesen

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wir empfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführen tron / oder einen qualifizierten Fachmann zu konsultieren dent

Empfehlung der Redaktion

Artikel der Redaktionsauswahl werden geladen...

OpenAI will die KI-Modelle o1 und o3 mit einem neuen Sicherheitstrainingsparadigma weiterentwickeln

Inhalt

In diesem Beitrag:

Wie deliberative Ausrichtung funktioniert

Die italienische Datenschutzbehörde verhängt eine Geldstrafe gegen OpenAI wegen Datenschutzverstößen

Link teilen:

Meistgelesen

Bleiben Sie über Krypto-News auf dem Laufenden und erhalten Sie täglich Updates in Ihren Posteingang

Empfehlung der Redaktion

Melden Sie sich an und bleiben Sie ganz oben!

Die Märkte bewegen sich schnell.

Wir sind schneller.

Steig ein. Informiere dich.
Verschaffe dir einen Vorsprung.

OpenAI will die KI-Modelle o1 und o3 mit einem neuen Sicherheitstrainingsparadigma weiterentwickeln

Inhalt

In diesem Beitrag:

Wie deliberative Ausrichtung funktioniert

Die italienische Datenschutzbehörde verhängt eine Geldstrafe gegen OpenAI wegen Datenschutzverstößen

Link teilen:

Meistgelesen

Bleiben Sie über Krypto-News auf dem Laufenden und erhalten Sie täglich Updates in Ihren Posteingang

Empfehlung der Redaktion

Melden Sie sich an und bleiben Sie ganz oben!

Folgen Sie uns

- Der Krypto-Newsletter, der Sie immer einen Schritt voraus hält -

Die Märkte bewegen sich schnell.

Wir sind schneller.

Steig ein. Informiere dich. Verschaffe dir einen Vorsprung.

Steig ein. Informiere dich.
Verschaffe dir einen Vorsprung.