In einer aktuellen Entwicklung erhielt OpenAI einetronWarnung von YouTube-CEO Neal Mohan bezüglich der Nutzung seiner Plattform zum Trainieren der hochmodernen KI-Modelle Sora und ChatGPT. Diese Warnung erfolgte angesichts möglicher Verstöße gegen die Nutzungsbedingungen von YouTube sowie Bedenken hinsichtlich der Herkunft der Trainingsdaten. Die Problematik der Trainingsdaten für diese hochmodernen KI-Systeme hat eine Diskussion über ethische KI-Forschung und die Verantwortung von Technologieunternehmen angestoßen.
Die Bedenken von YouTube untersuchen
Mira Muratis jüngstes Interview trägt zusätzlich zur Unsicherheit im ohnehin schon unübersichtlichen Bild der KI-Trainingsmethoden bei. Noch besorgniserregender ist möglicherweise, dass Mira Murati, CTO von OpenAI, in einem Interview mit dem Wall Street Journal vor nur einem Monat ihre Unsicherheit und Unklarheit bezüglich der Quelle von Soras Trainingsdaten zum Ausdruck brachte. Obwohl unklar ist, ob YouTube-Videos für das Training verwendet wurden oder werden, hat Neal Mohan, CEO des Unternehmens, OpenAI nun möglicherweise ein Warnsignal gesendet, indem er die Nutzung von Videos auf seiner Plattform untersagte.
„Das Herunterladen von Materialien wie Transkripten oder Videoclips ist verboten und stellt einen klaren Verstoß gegen unsere Nutzungsbedingungen dar“, erklärte Mohan in einem Interview mit Emily Chang für Bloomberg Originals. „Dies sind die Richtlinien für Inhalte auf unserer Plattform.“ Google, die Muttergesellschaft von YouTube, entwickelt zwar eine eigene multimodale KI namens Gemini, die ebenfalls Trainingsdaten verwendet, doch laut Mohan orientiert sich Google bei der Entscheidung über die Verwendung von Inhalten der Plattform an den individuellentracder jeweiligen Content-Ersteller mit YouTube.
Mohan erklärte:
„Das Herunterladen von Transkripten oder Videoausschnitten ist nicht gestattet und stellt einen klaren Verstoß gegen unsere Nutzungsbedingungen dar. Das sind die ungeschriebenen Regeln für Inhalte auf unserer Plattform.“
Quelle: Bloomberg
Mohan fügte außerdem hinzu:
„Google hält sich an die individuellentracvon YouTube mit den Urhebern, bevor entschieden wird, ob Videos von der Plattform verwendet werden.“
Quelle: Bloomberg
Die Navigation durch eine ethische KI-Entwicklung
Eine genauere Betrachtung von Muratis Äußerungen verdeutlicht die Brisanz des Urheberrechts- und Quellenangabeproblems. Angesichts der Formulierung „öffentlich verfügbare Daten“ ist es möglich, dass OpenAIs Sora sämtliche Inhalte im Internet erfasst, darunter auch YouTube-Videos und Beiträge in sozialen Netzwerken. Beispielsweise ist es höchst unwahrscheinlich, dass die Lizenzbedingungen aller auf YouTube veröffentlichten Inhalte eine solche Nutzung erlauben.
Die Wahrung des Urheberrechts im Internet ist an sich schon eine schwierige Aufgabe. Gleichzeitig wird OpenAIs Sora darauf zugreifen und neben der Nutzung zu Bildungszwecken auch davon profitieren können.
Nicht nur der CTO von OpenAI zögert, über die Datensätze zu sprechen, die Sora beim Lernen verwendet. Generell gibt das Unternehmen die verwendeten Quellen kaum preis. Selbst in der technischen Dokumentation zu Sora findet sich kein Hinweis darauf, dass eine signifikante Anzahl von Filmen mit zugehörigen Untertiteln für das Training von Text-zu-Video-Systemen benötigt wird.
Da diese Unternehmen nicht über das rechtliche Recht verfügen, die Daten zu verwenden, könnte ihre mangelnde Transparenz in dieser Hinsicht ein erstes Anzeichen dafür sein, dass sie versuchen, rechtliche Probleme zu vermeiden.

