KI-Unternehmen navigieren durch rechtliche Grauzonen bei Trainingsdaten

Von

Brian Koome

4 Minuten Lesezeit , 6. April 2024

OpenAI und Google stehen wegen der Sammlung von Trainingsdaten in der Kritik. OpenAI transkribiert YouTube-Videos, und Google verwendet Inhalte mit Genehmigung.
Meta erwägt angesichts von Bedenken hinsichtlich des Datenschutzes den Kauf eines großen Verlags, um Daten für KI-Projekte zu sammeln.
Die KI-Branche steht vor Datenknappheit und erforscht Lösungen wie synthetische Daten, doch es bleiben rechtliche und ethische Bedenken bestehen.

In der jüngsten Debatte darüber, wie Open und Google ihre Daten an das Modell anpassen, fallen zwei Begriffe besonders auf: Open und Google. Artikel im Wall Street Journal und der New York Times zeigen, dass die Datenerhebungsmethoden von KI-Unternehmen mangelhaft waren und die Frage aufwarfen, welche Daten verlässlich sind und welche ethischen Grundsätze bei der Entwicklung des KI-Systems verfolgt wurden.

Die fragwürdigen Taktiken von OpenAI

Auf dem Höhepunkt der Berichterstattung hob die New York Times jedoch die größeren Ziele von OpenAI hervor, die mit Whisper verfolgt werden. Dieses Audio-zu-Text-Transkriptionsmodell wurde als Ergänzung zum Sprachprozessor LP-4 von OpenAI entwickelt. Tatsächlich basiert das autonome Fahren von OpenAI nicht auf der Informationssammlung, einer Herausforderung, der sich das Unternehmen stellt; vielmehr kommt die Informationssammlung unter bestimmten Bedingungen zum Tragen.

Obwohl die anfängliche Popularität der Datenerfassungsgesetze mit urheberrechtlichen Erwägungen zum fairen Gebrauch zusammenhing, bildete dieses Recht auch die rechtliche Grundlage für diese Gesetze. Wie Brockman ausführt, lieferte eines der Gründungsmitglieder und der CEO von OpenAI einige für die Transkription notwendige Informationen. Er fügt jedoch hinzu, dass auch der Historiker zur Transkription beigetragen hat.

Allerdings rückt die Google Corporation selbst bei kleineren Problemen im Vergleich zu größeren Unternehmungen wie diesem in den Mittelpunkt. So ist beispielsweise OpenAI eine kleinere Organisation, die Daten sammelt und an Projekten arbeitet, die auf den Branchenriesen ausgerichtet sind. Der Nutzer wurde lediglich gewarnt, aber nicht darüber informiert, wer von YouTube die Schuld trägt.

Neben diesem Ansatz legte Facebook auch die Einhaltung der Nutzungsbedingungen fest und verbot unautorisierte Aktionen, insbesondere das sogenannte Data Scraping. John Conly (YouTube-Sprecher) beantwortete die Frage, ob die Modelle nach der Datenerhebung von Content-Erstellern für das Training inhaltsbasierter KI verwendet wurden.

Im Gegenteil. Das Training von Maschinen, auf denen Meta basiert, stellt aktuell ein Problem dar, das zu dessen Unmöglichkeit führt. Die KI- Gruppe des Unternehmens, die im Wettbewerb mit OpenAI erfolgreich war, war der Ansicht, dass beide Teams alle verfügbaren Mittel nutzten, um ein besseres Ergebnis für ihre Unternehmen zu erzielen, einschließlich originellen Denkens, ohne dabei auf Belange der unterlegenen Partei Rücksicht zu nehmen.

Meta scheint gezielte Fragen vorbereitet zu haben, um Antworten darauf zu erhalten, welche Aufgaben delegiert werden und wer für den Bucheinkauf bei welchen Verlagen in bestimmten Fachgebieten zuständig ist. Obwohl die Benutzerfreundlichkeit des Netzwerks hervorragend ist, hat die etablierte Regierungspolitik die Initiative ergriffen, in die Privatsphäre des Einzelnen einzugreifen, was 2018 durch den Cambridge-Analytica-Skandal deutlich wurde.

Die KI-Trainingslandschaft steht vor einem dringenden Dilemma: Einerseits hat sich die Frage des Datenmangels in den letzten Jahren verschärft, andererseits besteht weiterhin ein Zusammenhang zwischen beiden Problemen. Forscher betonen daher stets die Notwendigkeit ausreichender Daten für höhere Genauigkeit und Leistungssteigerung.

Die Prognose des Wall Street Journals weckt ebenfalls Begeisterung und sagt Kursanstiege voraus, die alle Erwartungen für Anfang 2020 übertreffen und zum Jahresende den höchsten Marktstand erreichen sollen. Diese Methode basiert auf zwei Faktoren: der Nutzung von Modellen, die synthetisch erstellt werden können, um eine externe Matrix abzubilden, und einem Entscheidungsprozess, in dem die Modelle aus ihren Entscheidungen lernen. Erwarten Sie keine sofortigen Ergebnisse, sondern beobachten Sie die Entwicklung.

Rechtliche und ethische Implikationen

Das Fehlen einer Regelung gegen Urheberrechtsverletzungen könnte Probleme verursachen, da Nutzern der Zugriff auf urheberrechtlich geschützte Inhalte verwehrt bleibt. Zudem könnten Unklarheiten hinsichtlich Recht, Ethik usw. entstehen. Werden Daten zu immateriellen Gütern und zur Grundlage für die Abgrenzung von Eigentum und Fremdbesitz? Werden Daten und Nutzer als Quelle des Geschäfts identifiziert, wenn deren Nutzung unberechtigt ist? Dieses Risiko würde die Programmleiter des F&E-Teams dazu veranlassen, sich intensiv mit der Überprüfung dieser Fragen und der Erarbeitung von Lösungen auseinanderzusetzen.

Die Zielsetzung der Sammelklagen impliziert, dass die Organisation in Bezug auf Datenschutz und Datennutzung nicht ausreichend informiert ist, um ihre Geschäftstätigkeit zu legitimieren. Die Herausforderungen (wie beispielsweise die ethischen Fragen im Zusammenhang mit dem Data-Mining-Prozess für KI-Forschung und -Entwicklung) werden dadurch verkompliziert, dass regulatorische Beschränkungen und der Datenschutz berücksichtigt werden müssen (da die Art der Daten im Kontext ihrer Verarbeitung und Nutzung steht).

Die größte Herausforderung im Bereich der KI der Zukunft liegt darin, die besten Trainingsdaten für KI-Systeme zudentund vor allem darin, ob diese Daten einheitlichen ethischen und rechtlichen Rahmenbedingungen unterliegen. Alles, was mit KI zu tun hat, betont und erweitert naturgemäß Konzepte wie Innovation und Implementierung durch die Nutzung von Datensatzfiltern für Unternehmen.

Da künstliche Intelligenz technologisch gesehen niemals statisch ist, wird das Hauptproblem immer die Datennutzung sein und auch weiterhin eine der Prioritäten der Community-Mitglieder bleiben, die sich durch den Einsatz von künstlicher Intelligenz – dem Besten – formieren.

Originalmeldung von: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb

Lesen Sie Krypto-News nicht nur, sondern verstehen Sie sie. Abonnieren Sie unseren Newsletter. Er ist kostenlos.

Diesen Artikel teilen

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtronempfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführendent oder einen qualifizierten Fachmann zu konsultieren

Brian Koome

Brian Koome verfügt über mehr als sieben Jahre Erfahrung im Bereich Blockchain- und Kryptowährungsberichterstattung und ist seit 2017 in der Branche aktiv. Er hat für führende Publikationen wie BlockToday.com geschrieben. Darüber hinaus entwickelte er den Ethereum -101-Kurs für BitDegree.org, bevor er als festangestellter Autor zu Cryptopolitan wechselte. Brians Themenschwerpunkte umfassen Evergreen-Guides, detaillierte Analysen, Interviews und Preisanalysen. Sein Fokus auf DeFi, Blockchain-Innovationen und aufstrebende Kryptoprojekte begeistert die Leser.

INHALTSVERZEICHNIS

1. Die fragwürdigen Taktiken von OpenAI

2. Rechtliche und ethische Implikationen

Diesen Artikel teilen