NEUESTE NACHRICHTEN
FÜR SIE AUSGEWÄHLT
WÖCHENTLICH
BLEIBEN SIE AN DER SPITZE

Die besten Krypto-Einblicke direkt in Ihren Posteingang.

Technologiekonzerne nutzen YouTube-Untertitel ohne Erlaubnis für das KI-Training

VonBrenda KananaBrenda Kanana
2 Minuten Lesezeit
Technologiekonzerne nutzen YouTube-Untertitel ohne Erlaubnis für das KI-Training
  • Apple und andere KI-Entwickler wie Anthropic und Nvidia wurden dabei erwischt, wie sie ohne Erlaubnis YouTube-Untertitel zum Trainieren ihrer KI-Systeme verwendeten.
  • Der Datensatz „YouTube Subtitles“ wurde von EleutherAI entwickelt und im Jahr 2020 veröffentlicht.
  • OpenAI nutzte eine Million Stunden YouTube-Videos, um sein GPT-4-Modell zu trainieren. 

Apple, Nvidia und Anthropologie haben nachweislich YouTube-Untertitel zum Trainieren von KI-Modellen verwendet, was gegen die YouTube-Richtlinien verstößt. Ein Bericht von Proof News und Wired zeigte, dass diese Unternehmen einen Datensatz mit Transkripten aus Tausenden von YouTube-Videos genutzt hatten, ohne die dafür erforderliche Lizenz zu erwerben. 

Lesen Sie auch: Britische Aufsichtsbehörde leitet Untersuchung zu Microsofts KI-Talentakquise ein

Die Studie ergab, dass Apple, Nvidia und Anthropologie den YouTube-Untertitel-Datensatz nutzten. Dieser Datensatz umfasst Transkripte von 173.536 YouTube-Videos aus 48.000 Kanälen. Die Videos stammen unter anderem von Bildungskanälen wie der Khan Academy und dem MIT, von Nachrichtensendern wie dem Wall Street Journal sowie von bekannten Content-Creatorn wie MrBeast und Marques Brownlee. 

Beliebte YouTuber reagieren auf Datenmissbrauch

Marques Brownlee, ein bekannter YouTuber, äußerte sich auf X zu dem Thema. Er sagte: „Apple hat Daten für KI-Anwendungen von anderen Firmen gesammelt. Eine davon hat zahlreiche Daten/Transkripte von YouTube-Videos zusammengetragen, darunter auch meine.“ Brownlee wies darauf hin, dass dieses Problem weiterhin bestehen wird, auch wenn Apple die Daten möglicherweise nicht direkt gesammelt hat.

Der Datensatz „YouTube Subtitles“ wurde von EleutherAI entwickelt und im Jahr 2020 veröffentlicht. Er umfasst 5,7 GB an Daten, darunter Untertitel von YouTube-Videos, die von der Plattform entfernt wurden. 

Laut den Nutzungsbedingungen von YouTube ist der Zugriff auf Videos durch „automatisierte Mittel“ verboten. Die Existenz von Untertiteln aus entfernten Videos verschärft das Problem zusätzlich und wirft Fragen zum Datenschutz und Urheberrechtsverletzungen auf.

Salesforce, ein Unternehmen, das ebenfalls in die Ermittlungen verwickelt ist, hat ebenfalls zugegeben, den besagten Datensatz verwendet zu haben. 

„Der im Forschungsartikel erwähnte Pile-Datensatz wurde 2021 für akademische und Forschungszwecke trainiert. Der Datensatz war öffentlich zugänglich und wurde unter einer freizügigen Lizenz veröffentlicht.“

Salesforce-Sprecher 

Die Nutzung von YouTube-Inhalten ohne Genehmigung ist jedoch bis heute umstritten. Im April erklärte YouTube-CEO Neal Mohan, dass die Verwendung von YouTube-Videos, -Transkripten oder -Clips für das KI-Training einen „klaren Verstoß“ gegen die Richtlinien darstelle. Laut der New York Times nutzte OpenAI jedoch eine Million Stunden YouTube-Videos, um sein GPT-4-Modell zu trainieren. 

Rechtsstreitigkeiten über die Nutzung von Internetinhalten durch KI-Unternehmen sind entbrannt

Das Problem, dass KI-Unternehmen Inhalte aus dem Internet ohne Genehmigung verwenden, hat sich nach dem Start von ChatGPT verschärft. Zudem verklagen Content-Ersteller Stability AI und Midjourney wegen des angeblichen unbefugten Kopierens urheberrechtlich geschützter Werke. Google, der Eigentümer von YouTube, sah sich mit ähnlichen Sammelklagen konfrontiert, da solche Klagen die Grundlage generativer KI gefährden. 

In einem Interview mit dem Wall Street Journal ging Mira Murati, CTO von OpenAI, nicht näher darauf ein, ob das Unternehmen Videos von Social-Media-Plattformen zum Trainieren des neuen Modells verwendet hat. Mustafa Suleyman, CEO von Microsoft AI, erklärte , dass Inhalte im offenen Web seit den 1990er-Jahren aufgrund des sogenannten „Gesellschaftsvertrags“ als zulässige Nutzungtrac. 

Es gibt einen Mittelweg zwischen dem Geld auf der Bank lassen und dem riskanten Spiel mit Kryptowährungen. Beginnen Sie mit diesem kostenlosen Video zum Thema dezentrale Finanzen.

Diesen Artikel teilen

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtrondentdentdentdentdentdentdentdent oder einen qualifizierten Fachmann zu konsultieren

MEHR … NACHRICHTEN
DEEP CRYPTO
CRASH-KURS