Die Harvard University hat in Zusammenarbeit mit Google einen Datensatz mit einer Million gemeinfreier Bücher veröffentlicht, um die nächste Generation der KI zu trainieren.
Die Bücher umfassen Genres, Sprachen und Autoren wie Dickens, Dante und Shakespeare, die aufgrund ihres Alters nicht mehr urheberrechtlich geschützt sind. Die neue Datensatzinitiative kommt daher, dass KI-Trainingsdaten naturgemäß teuer sind und sich am besten für Technologieunternehmen mit großem Budget eignen.
Harvard erhielt finanzielle Unterstützung von Technologiegiganten
Einem TechCrunch-Artikel zufolge wird die Initiative von der Institutional Data Initiative (IDI) der Harvard-Universität angeführt. Diese Initiative umfasst Bücher, die aus Googles langjährigem Buchscanprojekt Google Books .
Zu den weiteren im Datensatz enthaltenen Büchern gehören tschechische Mathematiklehrbücher und walisische Taschenwörterbücher.
Die Universität neckte das IDI im März mit der klaren Aussage, sie wolle einen „vertrauenswürdigen Kanal für Rechtsdaten für KI“ schaffen. Seitdem hörte man davon nicht mehr viel, bis zum offiziellen Start am Donnerstag und den Tech-Giganten Microsoft und OpenAI, die das Projekt finanzierten.
Der Datensatz ist nicht nur dem Silicon Valley vorbehalten, sondern IDI hat ihn für jedermann zugänglich gemacht, von Forschungslaboren bis hin zu KI-Startups, die ihre großen Sprachmodelle trainieren möchten.
laut IDI-Geschäftsführer Greg Leppert gleiche Wettbewerbsbedingungen schaffen, und zwar in einer Zeit, in der die Kosten für die Schulung von KI nach wie vor hoch und unerschwinglich für kleinere Unternehmen sind und sie Unternehmen mit großen Budgets vorbehalten bleibt.
Leppert fügte hinzu, dass der Datensatz „eingehend überprüft“ werde, was laut Fudzilla vermutlich bedeutet, dass jemand überprüft hat, um sicherzustellen, dass Bard wirklich weg und aus dem Weg war.
Der Harvard-Datensatz wird mehr Ressourcen benötigen
Laut Leppert, der das Potenzial des Datensatzes mit Linux, dem Open-Source-Betriebssystem, verglich, wird der Erfolg des Harvard-Datensatzes von einer Reihe von Variablen abhängen. Leppert sagte, sein Erfolg erfordere mehr Ressourcen, Fachwissen und eine „Prise Magie“ von denselben finanzstarken Unternehmen, die die Initiative herausfordern soll.
Die im Datensatz enthaltenen Millionen Bücher wurden im Rahmen des Google Books-Programms gescannt. Fudzilla beschreibt die Initiative als eine digitale Zeitkapsel aus der Zeit, als Googles Ambitionen, jedes Buch zu scannen, eher skurril als dystopisch wirkten.
Leppert ist jedoch optimistisch, was die potenziellen Einsatzmöglichkeiten des Projekts angeht, und deutet darüber hinaus an, dass es eine solche Fundgrube sein könnte, die dabei hilft, KI-Modelle für alle zu trainieren, von Garagen-Startups bis hin zu Konzernen.
Während einige die Initiative als revolutionären Fortschritt bei der Demokratisierung der KI gelobt haben, meint Fudzilla, dass einige darin ein subtiles Mittel sehen könnten, um sicherzustellen, dass jeder ehrgeizige Neuling mit ein paar Terabyte Serverraum jetzt an einem Wettlauf um die Entwicklung des nächsten ChatGPT teilnehmen kann .
Sie werden jedoch mehr Ressourcen benötigen, um wettbewerbsfähig zu sein und auf dem Markt dent zu fassen. ChatGPT wurde im November 2022 mit sofortigem Erfolg gestartet, was den Wettlauf um generative KI-Modelle auf der ganzen Welt beflügelte. Allerdings hat die Entwicklung dieser Modelle einen Datenhunger geweckt, um sie zu perfektionieren, und dieser Wunsch nach mehr Daten hat zu Problemen geführt, wie viele Informationen sie erhalten können, ohne sie zu stehlen.
Bisher haben Verlage wie das Wall Street Journal und die New York Times OpenAI und Perplexity wegen der unerlaubten Nutzung ihrer Daten verklagt
Erhalten Sie in 90 Tagen einen hochbezahlten Web3-Job: Die ultimative Roadmap