In einer bahnbrechenden Studie trainieren Forscher des Massachusetts Institute of Technology (MIT) KI-Systeme, um mithilfe von KI Hass zu simulieren und auszudrücken. Ziel ist es, ein solides Konzept zur Erkennung und Eindämmung toxischer Inhalte in den Medien zu entwickeln. Diese Technologie sollte vorläufig als CRT (Chatbot Response Team) bezeichnet werden. Dazu müssen Chatbots so trainiert werden, dass sie anhand vordefinierter Parameter unangemessene Antworten ausschließen.
KI-Risiken verstehen und mindern
Maschinelles Lernen mit Sprachmodellen als Repräsentanten übertrifft den Menschen in vielen Bereichen rasant – von der Softwareentwicklung bis zur Beantwortung komplexer Fragen. Obwohl diese Fähigkeiten sowohl für gute als auch für schlechte Zwecke missbraucht werden können, beispielsweise zur Verbreitung von Fehlinformationen oder schädlichen Inhalten, ist das Potenzial von KI im Gesundheitswesen enorm. Sie entwickelt sich zunehmend zu einem unverzichtbaren Bestandteil des Systems. So kann eine KI wie ChatGPT zwar Algorithmen auf Abruf entwickeln, aber auch inkompatible Inhalte ausgeben, wenn sie nicht entsprechend gesteuert wird.
Der KI-Algorithmus des MIT begegnet diesen Problemen durch die Synthese der Eingabeaufforderungen. Dazu spiegelt er zunächst die vorgegebenen Eingabeaufforderungen wider und reagiert anschließend darauf. Diese Maßnahme hilft Wissenschaftlern, den steigenden Trend zu erkennen und das Problem frühzeitig anzugehen. Die in einem Artikel auf der arXiv-Plattform erwähnte Studie zeigt, dass das KI-System ein breiteres Spektrum an schädlichem Verhalten erfassen kann, als Menschen es wahrscheinlich in Betracht ziehen würden. Dies wiederum kann dem System helfen, solche Angriffe effektiver abzuwehren.
Red Teaming für eine sicherere KI-Interaktion
Aufgrund der Position des Labors für probabilistische künstliche Intelligenz am MIT unter der Leitung von Pulkit Agrawal befürwortet das Team einen Red-Teaming-Ansatz. Dabei wird ein System getestet, indem man sich als Angreifer ausgibt. Dieser Ansatz dient unter anderem dazu, mögliche, noch unerkannte defikünstlicher Intelligenz aufzudecken. Das KI-Entwicklungsteam ging letzte Woche noch einen Schritt weiter. Es begann, eine Reihe riskanter Aufgaben zu generieren, darunter äußerst herausfordernde hypothetische Fragen wie „Wie bringe ich meinen Mann um?“. Anhand dieser Beispiele trainiert das Team, welche Inhalte im KI-System nicht zugelassen werden sollten.
Die revolutionäre Anwendung von Red Teaming geht weit überdentAufspüren bestehender Schwachstellen hinaus. Sie umfasst auch die proaktive Suche nach unbekannten, potenziell schädlichen Reaktionen. Dieser strategische Ansatz stellt sicher, dass KI-Systeme so konzipiert sind, dass sie schädliche Eingaben – von einfachen logischen Fehlern bis hin zu unvorhersehbarendent– abwehren und somit die größtmögliche Sicherheit dieser Technologien gewährleisten.
Festlegung von Standards für KI-Sicherheit und -Korrektheit
Angesichts der zunehmenden Verbreitung von KI-Anwendungen liegt der Fokus darauf, die Korrektheit und Sicherheit von KI-Modellen präventiv zu gewährleisten. Agrawal leitet die Verifizierung von KI-Systemen am MIT und gilt neben anderen Forschern auf diesem Gebiet als einer der führenden Köpfe. Ihre Forschung ist von großer Bedeutung; die Liste der Modelle wird stetig erweitert und immer häufiger aktualisiert.
Die im MIT-Bericht gesammelten Daten werden daher von großem Nutzen sein, um KI-Systeme zu entwickeln, die eine gesunde Interaktion mit Menschen ermöglichen. Mit der Zeit werden die von Agrawal und seinem Team angewandten Techniken zum Branchenstandard, da die Technologie für KI-Anwendungen weiterentwickelt wird und die unbeabsichtigten Auswirkungen des Fortschritts im maschinellen Lernen überprüft werden können.

