NVIDIA steht wegen des mutmaßlichen unlizenzierten Datensammelns für KI-Modelle unter Beobachtung

- Durchgesickerte Dokumente zeigen, dass NVIDIA ohne Zustimmung Daten aus Filmen und YouTube-Videos gesammelt hat.
- NVIDIA behauptet, das Daten-Scraping sei gemäß den Bestimmungen zur fairen Nutzung legal.
- Interne Mitteilungen zeigen, dass einige Mitarbeiter Bedenken hinsichtlich rechtlicher Fragen hatten.
Aus durchgesickerten Dokumenten, die 404 Media zugespielt wurden, geht hervor, dass NVIDIA unlizenzierte Datensammlung betrieben und Film- und Spielmaterial aus dem gesamten Internet verwendet hat, um seine Produkte für künstliche Intelligenz zu trainieren.
Die durchgesickerten Dokumente enthüllen, dass sie versuchten, ganze Filme von verschiedenen Anbietern, darunter Netflix, herunterzuladen, wobei ihr Hauptinteresse YouTube-Videos galt. Aus den von 404 Media erhaltenen E-Mails geht hervor, dass die Projektmanager planten, zwischen 20 und 30 virtuelle Maschinen auf Amazon Web Services einzusetzen, um täglich 80 Jahre Videomaterial abzurufen.
NVIDIA verteidigt sein Vorgehen und beruft sich auf die Bestimmungen zum fairen Gebrauch.
Data Scraping bezeichnet dastracvon Video-, Text- und Audioinhalten aus dem Internet ohne die Erlaubnis der Rechteinhaber, um KI-Modelle zu trainieren. Dies kann beispielsweise als die Nutzung urheberrechtlich geschützter Inhalte von Social-Media-Plattformen verstanden werden.
NVIDIA hat erklärt, beim Daten-Scraping keine Urheberrechte verletzt zu haben. Das Unternehmen gab außerdem an, dass seine Aktivitäten unter die Fair-Use-Doktrin fallen, da es urheberrechtlich geschütztes Material zum Training von KI verwendet.
Aus internen Kommunikationsunterlagen, die 404 Media vorliegen, geht hervor, dass einige NVIDIA-Mitarbeiter Bedenken hinsichtlich dieser Datensammlungsaktivitäten äußerten. Projektmanager spielten diese Bedenken jedoch angeblich herunter und erklärten, rechtliche Bedenken, beispielsweise Verstöße gegen die Nutzungsbedingungen von YouTube, würden später behandelt.
Ein Mitarbeiter wies darauf hin, dass die KI-Ingenieure von NVIDIA versuchten, so viele Spielclips wie möglich zu sammeln, um den Trainingsdatensatz anzureichern. Dazu wurde das Gameplay an NVIDIAs Cloud-Dienst GeForceNow gestreamt, um Gameplay-Videos in hoher defiaufzuzeichnen. Jim Fan, leitender Forschungsanalyst, betonte in internen Nachrichten ebenfalls die Wichtigkeit solcher Aufnahmen als Trainingsgrundlage für das KI-Modell.
Das Unternehmen ergreift Maßnahmen, um die öffentliche Wahrnehmung seiner Datenpraktiken zu steuern
Die Dokumente beschreiben auch NVIDIAs Versuche, den Schaden im Zusammenhang mit diesen Praktiken zu begrenzen. Laut durchgesickerten E-Mails empfahl Forschungs-Vizepräsident Ming-Yu Liu, dass das Unternehmen die Veröffentlichung von Dokumenten zu den Datenerfassungsmethoden vermeiden sollte, um öffentliche Kritik zu verhindern. NVIDIA entwickelte außerdem eigene Tools und API-Zugänge zur YouTube-Datenerfassung, um den Datenerfassungsprozess zu vereinfachen.
Die Rechtslage bezüglich der Regeln für den Einsatz von KI beim Web-Scraping ist noch immer unklar. Laut Robert Mahari vom MIT kann es recht kompliziert sein, nachzuweisen, dass tatsächlich Web-Scraping stattgefunden hat. Organisationen könnten davon profitieren, die Quellen ihrer Trainingsdaten nicht offenzulegen, da es ohne handfeste Beweise schwierig ist, Missbrauch nachzuweisen.
Eine weitere Plattform, Suno, eine KI-basierte Musikgenerierungsplattform, geriet kürzlich in die Schlagzeilen, weil sie die Verwendung von Data Scraping zum Trainieren von KI-Modellen zugab. Wie Cryptopolitanbereits berichtete, erklärte Reddit-CEO Steve Huffman, dass das Unternehmen Microsoft und anderen KI-Firmen weiterhin Data Scraping untersagen werde, bis eine Zahlung erfolgt und Reddit die Kontrolle über die Datennutzung erlangt. Er betonte, dass Reddit Data Scraping zum Trainieren von KI-Modellen ohne die entsprechende Lizenz nicht zulassen werde.
Wenn Sie das hier lesen, sind Sie schon einen Schritt voraus. Bleiben Sie mit unserem Newsletter auf dem Laufenden.
Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtronempfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführendent oder einen qualifizierten Fachmann zu konsultieren

Brenda Kanana
Brenda verfügt über mehr als vier Jahre Erfahrung in den Bereichen Kryptowährung, künstliche Intelligenz und Zukunftstechnologien. Sie arbeitete bereits für Zycrypto, Blockchain Reporter und The Coin Republic und ist nun bei Cryptopolitan tätig. Ihr Soziologiestudium an der Technischen Universität Mombasa ermöglicht es ihr, stets am Puls ihrer Leserschaft zu sein.
CRASH-KURS
- Mit welchen Kryptowährungen kann man Geld verdienen?
- Wie Sie Ihre Sicherheit mit einer digitalen Geldbörse erhöhen können (und welche sich tatsächlich lohnen)
- Wenig bekannte Anlagestrategien, die Profis anwenden
- Wie man mit dem Investieren in Kryptowährungen beginnt (welche Börsen man nutzen sollte, welche Kryptowährung am besten zum Kauf geeignet ist usw.)















