große Sprachmodelle (LLMs), die mit früheren Versionen KI-generierter Inhalte trainiert wurden, substanzlose und nuancenarme Ergebnisse liefern. Die Ergebnisse stellen KI-Entwickler vor eine neue Herausforderung, da sie für ihre Inhalte auf begrenzte, von Menschen erstellte Datensätze angewiesen sind.
Lesen Sie auch: KI-Deepfakes erschweren US-Behörden den Schutz von Kindern – Bericht
Forscher der Universitäten Cambridge und Oxford in Großbritannien versuchten, mithilfe eines Datensatzes, der ausschließlich KI-generierte Inhalte enthielt, Aufgabenstellungen zu erstellen. Das Ergebnis war unbefriedigend, da die Antworten unverständlich waren.
KI braucht immer noch Menschen, um Sinn zu ergeben
Einer der Autoren der Studie, Zhakar Shumaylov von der Universität Cambridge, erklärte, dass eine Qualitätskontrolle der Daten erforderlich sei, die in LLMs, der Technologie hinter generativen KI-Chatbots wie ChatGPT und Googles Gemini, eingespeist werden. Shumaylov sagte:
„Die Botschaft lautet: Wir müssen sehr vorsichtig sein, was in unsere Trainingsdaten gelangt. [Andernfalls] wird nachweislich immer etwas schiefgehen.“.
Dieses Phänomen wird als „Modellkollaps“ bezeichnet, erläuterte Shumaylov. Es betrifft nachweislich alle Arten von Modellen künstlicher Intelligenz, einschließlich solcher, die auf die Bildgenerierung anhand von Texteingaben spezialisiert sind.
Laut der Studie erzeugten wiederholte Texteingaben mithilfe KI-generierter Daten auf einem Modell letztendlich nur Kauderwelsch. So stellten die Forscher beispielsweise fest, dass ein System, das mit Texten über mittelalterliche Kirchtürme in Großbritannien getestet wurde, bereits nach neun Generationen eine sich wiederholende Liste von Hasen produzierte.
Der Informatiker Hany Farid von der University of California verglich den Datenkollaps mit den Problemen, die bei der Inzucht von Tieren auftreten.
„Wenn eine Art sich mit ihren eigenen Nachkommen inzuchtet und ihren Genpool nicht diversifiziert, kann dies zum Zusammenbruch der Art führen“, sagte Farid.
Als die Forscher von Menschen erzeugte Daten in die KI-Daten einfließen ließen, erfolgte der Zusammenbruch langsamer als bei rein KI-generierten Inhalten.

Forscher: KI könnte Vorurteile gegenüber Minderheitengruppen verschärfen
Sprachmodelle funktionieren, indem sie Assoziationen zwischen Wörtern oder Wortteilen in großen Textmengen herstellen, die oft aus dem Internet stammen. Sie generieren Texte, indem sie basierend auf diesen gelernten Mustern das statistisch wahrscheinlichste nächste Wort ausgeben.
Lesen Sie auch: Der von ChatGPT betriebene Teddybär Poe liest Kindern Gutenachtgeschichten vor
Die am 24. Juli in der Fachzeitschrift Nature veröffentlichte Studie zeigte, dass Informationen, die in Datensätzen nur wenige Male erwähnt werden, wahrscheinlich nicht wiederholt werden. Forscher befürchten, dass dies bereits marginalisierte Minderheitengruppen negativ beeinflussen könnte.
Um einen Modellzusammenbruch in realen Anwendungsfällen zu verhindern, schlug die Studie vor, KI-generierte und von Menschen erstellte Inhalte mit einem Wasserzeichen zu versehen. Dies könne jedoch aufgrund mangelnder Koordination zwischen konkurrierenden KI-Unternehmen ebenfallsmatic sein, hieß es weiter.
Die Ergebnisse der Studie kommen zu einer Zeit, in der verstärkt darüber diskutiert wird, ob KI zum völligen Ausschluss des Menschen bei der Erstellung von Inhalten führen wird, einschließlich des Schreibens von Romanen und Zeitungsartikeln.
Die Studie mit dem Titel „KI-Modelle versagen beim Training mit rekursiv generierten Daten“ beendet diese Debatte endgültig – der Mensch ist noch lange nicht aus der Gleichung entfernt.

