🔥 Erhalten Sie in 90 Tagen einen hochbezahlten Web3-Job. ERFAHREN SIE MEHR

Google und Harvard stellen erstmals einen Datensatz mit 1 Mio. gemeinfreien Büchern für das KI-Training vor

In diesem Beitrag:

  • Die Initiative wird den Zugang zu mehr Informationen für KI-Unternehmen verbessern, um ihre Modelle zu trainieren.
  • OpenAI und Microsoft finanzierten das Havard-Projekt.
  • Die fast eine Million Bücher umfassen mehrere Genres und wurden im Rahmen des Google Books-Programms gescannt.

Die Harvard University hat in Zusammenarbeit mit Google einen Datensatz mit einer Million gemeinfreier Bücher veröffentlicht, um die nächste Generation der KI zu trainieren.

Die Bücher umfassen Genres, Sprachen und Autoren wie Dickens, Dante und Shakespeare, die aufgrund ihres Alters nicht mehr urheberrechtlich geschützt sind. Die neue Datensatzinitiative kommt daher, dass KI-Trainingsdaten naturgemäß teuer sind und sich am besten für Technologieunternehmen mit großem Budget eignen.

Harvard erhielt finanzielle Unterstützung von Technologiegiganten

Einem TechCrunch-Artikel zufolge wird die Initiative von der Institutional Data Initiative (IDI) der Harvard-Universität angeführt. Diese Initiative umfasst Bücher, die aus Googles langjährigem Buchscanprojekt Google Books .

Zu den weiteren im Datensatz enthaltenen Büchern gehören tschechische Mathematiklehrbücher und walisische Taschenwörterbücher.

Die Universität neckte das IDI im März mit der klaren Aussage, sie wolle einen „vertrauenswürdigen Kanal für Rechtsdaten für KI“ schaffen. Seitdem hörte man davon nicht mehr viel, bis zum offiziellen Start am Donnerstag und den Tech-Giganten Microsoft und OpenAI, die das Projekt finanzierten.

Der Datensatz ist nicht nur dem Silicon Valley vorbehalten, sondern IDI hat ihn für jedermann zugänglich gemacht, von Forschungslaboren bis hin zu KI-Startups, die ihre großen Sprachmodelle trainieren möchten.

laut IDI-Geschäftsführer Greg Leppert gleiche Wettbewerbsbedingungen schaffen, und zwar in einer Zeit, in der die Kosten für die Schulung von KI nach wie vor hoch und unerschwinglich für kleinere Unternehmen sind und sie Unternehmen mit großen Budgets vorbehalten bleibt.

Siehe auch  Top-Nvidia-Kunden verzögern Bestellungen von Blackwell-Racks aufgrund technischer Störungen

Leppert fügte hinzu, dass der Datensatz „eingehend überprüft“ werde, was laut Fudzilla vermutlich bedeutet, dass jemand überprüft hat, um sicherzustellen, dass Bard wirklich weg und aus dem Weg war.

Der Harvard-Datensatz wird mehr Ressourcen benötigen

Laut Leppert, der das Potenzial des Datensatzes mit Linux, dem Open-Source-Betriebssystem, verglich, wird der Erfolg des Harvard-Datensatzes von einer Reihe von Variablen abhängen. Leppert sagte, sein Erfolg erfordere mehr Ressourcen, Fachwissen und eine „Prise Magie“ von denselben finanzstarken Unternehmen, die die Initiative herausfordern soll.

Die im Datensatz enthaltenen Millionen Bücher wurden im Rahmen des Google Books-Programms gescannt. Fudzilla beschreibt die Initiative als eine digitale Zeitkapsel aus der Zeit, als Googles Ambitionen, jedes Buch zu scannen, eher skurril als dystopisch wirkten.

Leppert ist jedoch optimistisch, was die potenziellen Einsatzmöglichkeiten des Projekts angeht, und deutet darüber hinaus an, dass es eine solche Fundgrube sein könnte, die dabei hilft, KI-Modelle für alle zu trainieren, von Garagen-Startups bis hin zu Konzernen.

Während einige die Initiative als revolutionären Fortschritt bei der Demokratisierung der KI gelobt haben, meint Fudzilla, dass einige darin ein subtiles Mittel sehen könnten, um sicherzustellen, dass jeder ehrgeizige Neuling mit ein paar Terabyte Serverraum jetzt an einem Wettlauf um die Entwicklung des nächsten ChatGPT teilnehmen kann .

Sie werden jedoch mehr Ressourcen benötigen, um wettbewerbsfähig zu sein und auf dem Markt dent zu fassen. ChatGPT wurde im November 2022 mit sofortigem Erfolg gestartet, was den Wettlauf um generative KI-Modelle auf der ganzen Welt beflügelte. Allerdings hat die Entwicklung dieser Modelle einen Datenhunger geweckt, um sie zu perfektionieren, und dieser Wunsch nach mehr Daten hat zu Problemen geführt, wie viele Informationen sie erhalten können, ohne sie zu stehlen.

Siehe auch  Metas KI-Influencer bedrohen die Creator Economy mehr als das TikTok-Verbot

Bisher haben Verlage wie das Wall Street Journal und die New York Times OpenAI und Perplexity wegen der unerlaubten Nutzung ihrer Daten verklagt

Erhalten Sie in 90 Tagen einen hochbezahlten Web3-Job: Die ultimative Roadmap

Einen Link teilen:

Haftungsausschluss. Die bereitgestellten Informationen sind keine Handelsberatung. Cryptopolitan.com haftet nicht für Investitionen, die auf der Grundlage der auf dieser Seite bereitgestellten Informationen getätigt wurden. Wir tron dringend unabhängige dent und/oder Beratung durch einen qualifizierten Fachmann, bevor Sie Anlageentscheidungen treffen.

Meist gelesen

Die meisten gelesenen Artikel werden geladen...

Bleiben Sie über Krypto-Neuigkeiten auf dem Laufenden und erhalten Sie tägliche Updates in Ihrem Posteingang

Wahl des Herausgebers

Editor's Choice-Artikel werden geladen...
Abonnieren Sie CryptoPolitan