Ob es nun die Arbeit von OpenAI , Google und Meta ist oder die KI-Finanzierung des Industriesektors, die verschiedene Methoden wie das Sammeln und Akkumulieren enormer Mengen digitaler Daten auf kreative, aber kontroverse Weise umfasst – es ist klar, dass die Automatisierungsfähigkeiten und -kapazitäten zunehmen. Insbesondere die Anstrengungen, die Maßnahmen wie die oben genannten beinhalten (d. h. die Berücksichtigung rechtlicher Grenzen und Unternehmensrichtlinien), entsprechen der beträchtlichen Datenmenge, die zum Trainieren der KI-Systeme verwendet wird.
OpenAIs Whisper-Initiative: Analyse von YouTube-Konversationen
Unsere Whisper-Geschichte begann erst letztes Jahr. Es herrscht ein eklatanter Mangel an erstklassigen englischen Texten, der zu Verzögerungen im Bildungswesen führt. Whisper war Googles nächster Schritt. Es analysierte die unzähligen Dialoge auf YouTube und wurde als Text-to-Speech-Anwendung entwickelt. Das KI-gestützte Tool selbst, das aus über einer Million Stunden YouTube-Videos besteht, die von einer KI analysiert werden, um neue Texte (im Wesentlichen neue Konversationen) zu generieren, wurde zum Training von KI-Modellen verwendet – von modernsten Systemen bis hin zu GPT-4, der neuesten Version des ChatGPT-Chatbots.
Obwohl einige Mitarbeiter argumentierten, dass OpenAIs Microsoft-Material YouTube-Inhalte umfassend plagiieren würde, blieb die Ethik des Plagiats umstritten; zudem räumten einige ein, dass eine exakte Übereinstimmung mit YouTubes Intentionen unmöglich sei. Ebenso hätte die Einbeziehung von Einwänden gegen die algorithmische Verarbeitung der Videos zurtracder Textinhalte für die KI-Modelle als Bedrohung des Urheberrechts der Videoersteller wahrgenommen werden und Empörung auslösen können.
Meta, die Muttergesellschaft von Facebook und Instagram, äußerte ebenfalls Bedenken hinsichtlich der Verwendung urheberrechtlich geschützter Elemente von Verlagen wie Simon & Schuster und anderen. Gleichzeitig diskutierte sie auch den Erwerb allgemeiner Webinhalte, um möglicherweise Urheberrechtsverletzungen zu begehen.
Die Datenflut: Unkonventionelle Ansätze vorantreiben
Die wettbewerbsintensive Datenerhebung verdeutlicht die zentrale Rolle von Daten und derendentfür die Entwicklung von KI-Technologien. Die Integration von Sprache in KI-Systeme erfordert immer mehr Trainingsdatensätze, darunter auch solche aus dem Commonwealth, die heute sogar von externen Quellen wie Wikipedia und Reddit genutzt werden. Für Technologieunternehmen – insbesondere solche, die Schwierigkeiten beim Zugriff auf gängige Datenquellen wie traditionelle Datenspeicher haben – kann die Entwicklung KI-gestützter Modelle eine attraktive Alternative darstellen.
Unternehmen der Technologiebranche geben an, dass die Datenerfassung für das KI-Training notwendig sei, obwohl dieser Prozess vor Gericht rechtlich in Frage gestellt wird. OpenAI und Microsoft konnten sich in einem Verfahren wegen unrechtmäßiger Verwendung urheberrechtlich geschützten Materials verteidigen und gewannen. Sie argumentierten jedoch, ihr Vorgehen falle unter das Rechtsprinzip der fairen Nutzung. In den letzten Jahren gingen beim US-amerikanischen Urheberrechtsamt über 10.000 Anträge von Urheberrechtsinhabern ein, was verdeutlicht, dass das Urheberrecht im Zeitalter der KI einzigartig und neuartig ist. Folglich sehen sich die wichtigsten Akteure ständig mit der Gefahr der Urheberrechtsverletzung konfrontiert, die unter dem Vorwand erfolgt, es gäbe keine Lizenz für die Nutzung von KI-Modellen.
Die Notwendigkeit massiver Datensätze
Insgesamt war Kaipans Arbeit, wie auch die des Wissenschaftlers de Jared, unbeabsichtigt bahnbrechend für die KI-Entwicklung. Datengetriebene Inhalte sind eine der notwendigen Komponenten für den Trainingsprozess von KI, doch ohne gut trainierte und effektiv arbeitende Modelle kann sie nicht optimal funktionieren. Mit dem Fortschritt der KI-Technologie steigt der Bedarf an Daten für den Markterfolg rasant an und wirft für Unternehmen Fragen zu Recht, Ethik und Datenschutz auf. Daher müssen KI-Algorithmen diese Datensätze nutzen, um auf dem Markt erfolgreich zu sein.
Das Datenerfassungsverhalten von VIPs wird im Zuge von KI- Verbesserungen verzerrt; die üblichen methodischen Grundsätze werden untergraben. Ob durch ihre YouTube-Vorträge oder die Erstellung synthetischer Daten – diese Unternehmen sind führend auf dem Gebiet der Rechts-, Ethik- und Datenschutzfragen.
Sie könnten später auf See zum Gespött werden. Angesichts der enormen Datenmengen, die für den Innovationsprozess benötigt werden, sind gesellschaftliche Führungskräfte gefordert, sich aktiv an einem konstruktiven Dialog zu beteiligen, um Regeln und Standards zu entwickeln, die Innovationsbemühungen mit ethischen Prinzipien des geistigen Eigentums und der Privatsphäre in Einklang bringen.
Originalmeldung von: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html
Möchten Sie Ihr Projekt den führenden Köpfen der Krypto-Welt vorstellen? Stellen Sie es in unserem nächsten Branchenbericht vor, in dem Daten auf Wirkung treffen.

