NEUESTE NACHRICHTEN
FÜR SIE AUSGEWÄHLT
WÖCHENTLICH
BLEIBEN SIE AN DER SPITZE

Die besten Krypto-Einblicke direkt in Ihren Posteingang.

Google und Harvard stellen einen Datensatz mit 1 Million gemeinfreien Büchern für das KI-Training vor

VonEnacy MapakameEnacy Mapakame
Lesezeit: 2 Minuten
  • Die Initiative wird den Zugang zu mehr Informationen für KI-Unternehmen verbessern, damit diese ihre Modelle trainieren können.
  • OpenAI und Microsoft finanzierten das Harvard-Projekt.
  • Die fast eine Million Bücher umfassen verschiedene Genres und wurden im Rahmen des Google Books-Programms eingescannt.

Die Harvard-Universität hat in Zusammenarbeit mit Google einen Datensatz mit einer Million gemeinfreier Bücher veröffentlicht, um die nächste Generation von KI zu trainieren.

Die Bücher umfassen verschiedene Genres, Sprachen und Autoren wie Dickens, Dante und Shakespeare, die aufgrund ihres Alters nicht mehr urheberrechtlich geschützt sind. Die neue Datensatzinitiative kommt zu einem Zeitpunkt, an dem KI-Trainingsdaten naturgemäß teuer und daher am besten für finanzstarke Technologieunternehmen geeignet sind.

Harvard erhielt finanzielle Unterstützung von Technologiegiganten

Laut einem Artikel von TechCrunch wird die Initiative von der Institutional Data Initiative (IDI) der Harvard-Universität geleitet. Diese Initiative umfasst Bücher, die aus Googles langjährigem Buchscanning-Projekt Google Books.

Zu den weiteren im Datensatz enthaltenen Büchern gehören tschechische Mathematiklehrbücher und walisische Taschenwörterbücher.

Die Universität kündigte das IDI im März an und erklärte deutlich ihre Pläne, einen „vertrauenswürdigen Kanal für Rechtsdaten für KI“ zu schaffen. Seitdem war bis zum offiziellen Start am Donnerstag nicht viel davon zu hören, und die Technologiegiganten Microsoft und OpenAI finanzierten das Projekt.

Der Datensatz ist nicht allein dem Silicon Valley vorbehalten, sondern IDI hat ihn für alle geöffnet, von Forschungslaboren bis hin zu KI-Startups, die ihre großen Sprachmodelle trainieren wollen.

IDI-Geschäftsführer Greg Leppert soll laut für Chancengleichheit gesorgt werden, und zwar zu einer Zeit, in der die Kosten für das Training von KI nach wie vor hoch und für kleinere Unternehmen unerschwinglich sind und sie somit denjenigen mit riesigen Budgets vorbehalten bleibt.

Leppert fügte hinzu, dass der Datensatz „gründlich geprüft“ werde, was laut Fudzilla vermutlich bedeutet, dass jemand überprüft hat, ob Bard wirklich weg und aus dem Weg ist.

Für den Harvard-Datensatz werden mehr Ressourcen benötigt

Laut Leppert, der das Potenzial des Datensatzes mit dem von Linux, dem Open-Source-Betriebssystem, verglich, hängt der Erfolg des Harvard-Datensatzes von einer Reihe von Faktoren ab. Leppert erklärte, dass für seinen Erfolg mehr Ressourcen, Expertise und eine Prise Glück von eben jenen finanzstarken Konzernen nötig seien, die die Initiative eigentlich herausfordern soll.

Die eine Million Bücher im Datensatz wurden im Rahmen des Google Books-Programms gescannt. Fudzilla beschreibt die Initiative als digitale Zeitkapsel aus einer Zeit, als Googles Ambitionen, jedes Buch zu scannen, eher skurril als dystopisch wirkten.

Leppert ist jedoch optimistisch, was die potenziellen Einsatzmöglichkeiten des Projekts angeht, und deutet weiter an, dass es sich um eine wahre Fundgrube handeln könnte, die beim Training von KI-Modellen für alle hilft, von Garagen-Startups bis hin zu Konzernen.

Während einige die Initiative als revolutionären Fortschritt bei der Demokratisierung der KI loben, meint Fudzilla, dass manche darin ein subtiles Mittel sehen könnten, um sicherzustellen, dass jeder ambitionierte Emporkömmling mit ein paar Terabyte Serverspeicher nun im Wettlauf um die Entwicklung des nächsten ChatGPT mitmischen kann.

Um wettbewerbsfähig zu sein und dent , benötigen sie jedoch mehr Ressourcen. ChatGPT startete im November 2022 und feierte sofortigen Erfolg, was weltweit einen Wettlauf um generative KI-Modelle auslöste. Die Entwicklung dieser Modelle hat jedoch einen enormen Datenbedarf zur Perfektionierung der Modelle erzeugt, und dieses Bedürfnis nach mehr Daten führt zu Problemen hinsichtlich der Menge an Informationen, die legal beschafft werden können.

Bislang haben Verlage wie das Wall Street Journal und die New York Times verklagt OpenAI und Perplexity wegen der unbefugten Nutzung ihrer Daten

Die klügsten Köpfe der Krypto-Szene lesen bereits unseren Newsletter. Möchten Sie auch dabei sein? Dann schließen Sie sich ihnen an.

Diesen Artikel teilen

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtronempfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführendent oder einen qualifizierten Fachmann zu konsultieren

Enacy Mapakame

Enacy Mapakame

Enacy Mapakame ist Journalistin mit über zehn Jahren Erfahrung im Bereich Wirtschafts- und Finanznachrichten. Sie berichtet über Kapitalmärkte und Zukunftstechnologien – Metaverse, KI und Kryptowährungen. Enacy besitzt einen Bachelor of Science (BSc) mit Auszeichnung in Medien- und Gesellschaftswissenschaften.

MEHR … NACHRICHTEN
DEEP CRYPTO
CRASH-KURS