Steve Huffman, CEO von Reddit, hat darauf bestanden, dass die Social-Media-Plattform weiterhin KI-Unternehmen, darunter Microsoft, daran hindern wird, Daten auf ihrer Website zu sammeln, bis sie bezahlt werden und ein Mitspracherecht bei der Verwendung der Inhalte haben. Laut The Verge werde Reddit bei der unlizenzierten Nutzung seiner Daten zum Trainieren von KI-Modellen keine Kompromisse eingehen.
In den letzten Monaten hat Reddit Änderungen an seinen Richtlinien vorgenommen, um zu verhindern, dass KI-Entwickler seine Benutzerdaten, Beiträge und Communities ohne Zustimmung oder Bezahlung löschen. Das Unternehmen hat inzwischen einen Deal im Wert von 60 Millionen mit Google abgeschlossen, der dem Technologieriesen die Nutzung seiner Inhalte ermöglicht. Reddit hat im Mai Vereinbarung
Microsoft profitiert von den kostenlosen Inhalten von Reddit
Huffman behauptete jedoch, dass Microsoft die Inhalte von Reddit weiterhin ohne Erlaubnis verwendet habe, um die KI-Funktionen in seiner Bing-Suchmaschine zu entwickeln. Der Reddit-CEO warf Microsoft vor, von den Inhalten seiner Firma zu profitieren. Er sagte, Microsoft habe die Daten kostenlos abgeschafft, sie aber über die Bing-API mit Gewinn an KI-Unternehmen verkauft.
Schließlich blockierte Reddit Microsoft den Zugriff auf seine Benutzerdaten – was bedeutete, dass Bing keine Reddit-Inhalte mehr in seinen Suchergebnissen anzeigen konnte. Reddit nutzt das Robots Exclusion Protocol oder robots.txt, ein Tool, das von Websites verwendet wird, um Webcrawler dent In einem aktuellen Interview mit The Verge erklärte Huffman:
„Wir haben Microsoft, Anthropic und Perplexity so tun lassen, als ob alle Inhalte im Internet für sie kostenlos nutzbar wären. Das ist ihre wahre Position.“
Huffman enthüllte, dass die drei Unternehmen – Microsoft, Anthropic und Perplexity – und andere kleinere KI-Firmen sich geweigert haben, über eine Bezahlung für das Scraping von Reddit-Inhalten zu verhandeln. Die Unternehmen argumentieren in der Regel, dass es sich bei den Daten um öffentlich zugängliche Informationen handele, die im Rahmen der Fair-Use-Grundsätze verwendet werden könnten. Salesforce hatte zuvor die Nutzung von YouTube-Inhalten mit derselben Begründung verteidigt. Apple hat außerdem erklärt, dass es seine KI anhand öffentlich verfügbarer Daten trainiert hat.
„Ohne diese Vereinbarungen haben wir kein Mitspracherecht und kein Wissen darüber, wie unsere Daten angezeigt und wofür sie verwendet werden“, sagte Huffman. „[Dies] hat uns nun in die Lage versetzt, Leute zu blockieren, die nicht bereit waren, sich damit abzufinden, wie unsere Daten genutzt oder nicht genutzt werden sollen.“
Microsoft-Chef sagt, Webinhalte seien „Freeware“
Ein Microsoft-Sprecher sagte , dass das Unternehmen das robot.txt-Protokoll „respektiert“ und das Crawlen von Reddit am 1. Juli eingestellt habe. Unterdessen erschien kürzlich Mustafa Suleyman, CEO von Microsoft AI, in der Presse und beschrieb die Inhalte von Reddit als Freeware.
„…in Bezug auf Inhalte, die sich bereits im offenen Web befinden, lautet der soziale trac dieser Inhalte seit den 90er Jahren, dass es sich um eine faire Verwendung handelt“, erläuterte er. „Jeder kann es kopieren, neu erstellen, damit reproduzieren. Wenn Sie so wollen, war das Freeware. Das war das Verständnis.“
Das US-amerikanische Urheberrecht erlaubt die Wiederverwendung veröffentlichter Inhalte. Auf der Urheberrechts-Website der US-Regierung heißt es, dass es erlaubt sei, begrenzte Teile eines Werks, einschließlich Zitate, für Zwecke wie Kommentare, Kritik, Nachrichtenberichterstattung und wissenschaftliche Berichte zu verwenden, da diese alle unter die Doktrin der fairen Nutzung fallen. Allerdings sind Suchmaschinen nicht verpflichtet, Verlage zu entschädigen.