NEUESTE NACHRICHTEN

American Bitcoin, Strive kauft weiterhin Bitcoin während Strategy 3.588 BTC verkauft

Nachrichten vor 59 Minuten
Die TeraWulf-Aktie stieg nach dem 19 Milliarden Dollar schweren Mietvertrag für ein Anthropic-Rechenzentrum um 17 %

Nachrichten vor 1 Stunde
China nimmt in der ersten Phase der Kampagne „Das Internet säubern“ 14.000 KI-Produkte ins Visier

Vor 2 Stunden Technik
SpaceX spendet Aktien an Trump-Konten, während Trump seine Präsidentschaft auf den Markt setzt

vor 3 Stunden Wirtschaft

FÜR SIE AUSGEWÄHLT

China nimmt in der ersten Phase der Kampagne „Das Internet säubern“ 14.000 KI-Produkte ins Visier

Vor 2 Stunden Technik
Broadcom verlängert Apple-Chip-Liefervertrag bis 2031

Vor 5 Stunden Technik
Chinas KI-Regeln zwingen ByteDance und Alibaba zur Abschaltung ihrer Begleit-Bots

Vor 12 Stunden Technik

Google und Harvard stellen einen Datensatz mit 1 Million gemeinfreien Büchern für das KI-Training vor

Von

Enacy Mapakame

Lesezeit: 2 Minuten , 12. Dezember 2024

Die Initiative wird den Zugang zu mehr Informationen für KI-Unternehmen verbessern, damit diese ihre Modelle trainieren können.
OpenAI und Microsoft finanzierten das Harvard-Projekt.
Die fast eine Million Bücher umfassen verschiedene Genres und wurden im Rahmen des Google Books-Programms eingescannt.

Die Harvard-Universität hat in Zusammenarbeit mit Google einen Datensatz mit einer Million gemeinfreier Bücher veröffentlicht, um die nächste Generation von KI zu trainieren.

Die Bücher umfassen verschiedene Genres, Sprachen und Autoren wie Dickens, Dante und Shakespeare, die aufgrund ihres Alters nicht mehr urheberrechtlich geschützt sind. Die neue Datensatzinitiative kommt zu einem Zeitpunkt, an dem KI-Trainingsdaten naturgemäß teuer und daher am besten für finanzstarke Technologieunternehmen geeignet sind.

Harvard erhielt finanzielle Unterstützung von Technologiegiganten

Laut einem Artikel von TechCrunch wird die Initiative von der Institutional Data Initiative (IDI) der Harvard-Universität geleitet. Diese Initiative umfasst Bücher, die aus Googles langjährigem Buchscanning-Projekt Google Books.

Zu den weiteren im Datensatz enthaltenen Büchern gehören tschechische Mathematiklehrbücher und walisische Taschenwörterbücher.

Die Universität kündigte das IDI im März an und erklärte deutlich ihre Pläne, einen „vertrauenswürdigen Kanal für Rechtsdaten für KI“ zu schaffen. Seitdem war bis zum offiziellen Start am Donnerstag nicht viel davon zu hören, und die Technologiegiganten Microsoft und OpenAI finanzierten das Projekt.

Der Datensatz ist nicht allein dem Silicon Valley vorbehalten, sondern IDI hat ihn für alle geöffnet, von Forschungslaboren bis hin zu KI-Startups, die ihre großen Sprachmodelle trainieren wollen.

Indem der Datensatz für jedermann zugänglich gemacht wird, soll laut IDI-Geschäftsführer Greg Leppert für Chancengleichheit gesorgt werden, und zwar zu einer Zeit, in der die Kosten für das Training von KI nach wie vor hoch und für kleinere Unternehmen unerschwinglich sind und sie somit denjenigen mit riesigen Budgets vorbehalten bleibt.

Leppert fügte hinzu, dass der Datensatz „gründlich geprüft“ werde, was laut Fudzilla vermutlich bedeutet, dass jemand überprüft hat, ob Bard wirklich weg und aus dem Weg ist.

Für den Harvard-Datensatz werden mehr Ressourcen benötigt

Laut Leppert, der das Potenzial des Datensatzes mit dem von Linux, dem Open-Source-Betriebssystem, verglich, hängt der Erfolg des Harvard-Datensatzes von einer Reihe von Faktoren ab. Leppert erklärte, dass für seinen Erfolg mehr Ressourcen, Expertise und eine Prise Glück von eben jenen finanzstarken Konzernen nötig seien, die die Initiative eigentlich herausfordern soll.

Die eine Million Bücher im Datensatz wurden im Rahmen des Google Books-Programms gescannt. Fudzilla beschreibt die Initiative als digitale Zeitkapsel aus einer Zeit, als Googles Ambitionen, jedes Buch zu scannen, eher skurril als dystopisch wirkten.

Leppert ist jedoch optimistisch, was die potenziellen Einsatzmöglichkeiten des Projekts angeht, und deutet weiter an, dass es sich um eine wahre Fundgrube handeln könnte, die beim Training von KI-Modellen für alle hilft, von Garagen-Startups bis hin zu Konzernen.

Während einige die Initiative als revolutionären Fortschritt bei der Demokratisierung der KI loben, meint Fudzilla, dass manche darin ein subtiles Mittel sehen könnten, um sicherzustellen, dass jeder ambitionierte Emporkömmling mit ein paar Terabyte Serverspeicher nun im Wettlauf um die Entwicklung des nächsten ChatGPT mitmischen kann.

Um wettbewerbsfähig zu sein und dent , benötigen sie jedoch mehr Ressourcen. ChatGPT startete im November 2022 und feierte sofortigen Erfolg, was weltweit einen Wettlauf um generative KI-Modelle auslöste. Die Entwicklung dieser Modelle hat jedoch einen enormen Datenbedarf zur Perfektionierung der Modelle erzeugt, und dieses Bedürfnis nach mehr Daten führt zu Problemen hinsichtlich der Menge an Informationen, die legal beschafft werden können.

Bislang haben Verlage wie das Wall Street Journal und die New York Times OpenAI und Perplexity wegen der unbefugten Nutzung ihrer Daten verklagt

Lesen Sie Krypto-News nicht nur, sondern verstehen Sie sie. Abonnieren Sie unseren Newsletter. Er ist kostenlos.

Google

Diesen Artikel teilen

Haftungsausschluss. Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitan/ übernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtronempfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführendent oder einen qualifizierten Fachmann zu konsultieren

Enacy Mapakame

Enacy Mapakame ist Journalistin mit über zehn Jahren Erfahrung im Bereich Wirtschafts- und Finanznachrichten. Sie berichtet über Kapitalmärkte und Zukunftstechnologien – Metaverse, KI und Kryptowährungen. Enacy besitzt einen Bachelor of Science (BSc) mit Auszeichnung in Medien- und Gesellschaftswissenschaften.

INHALTSVERZEICHNIS

1. Harvard erhielt finanzielle Unterstützung von Technologiegiganten

2. Für den Harvard-Datensatz werden mehr Ressourcen benötigt

Diesen Artikel teilen

MEHR … NACHRICHTEN

ALLE ANZEIGEN

Was ist Base? Das von Coinbase ins Leben gerufene Ethereum Layer-2-Netzwerk

21. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Dogecoin vs. Bitcoin: Wichtigste technische Unterschiede

20. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Was ist TVL (Total Value Locked) bei Kryptowährungen?

14. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Wie liest man ein Krypto-Whitepaper?

13. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Ripple vs. XRP vs. XRP Ledger: Was ist der Unterschied?

13. Oktober 2025 Krypto lernen: Leitfaden für Anfänger
Was ist eine Multisig-Wallet im Kryptobereich?

10. Oktober 2025 Krypto lernen: Leitfaden für Anfänger

Google und Harvard stellen einen Datensatz mit 1 Million gemeinfreien Büchern für das KI-Training vor

Harvard erhielt finanzielle Unterstützung von Technologiegiganten

Für den Harvard-Datensatz werden mehr Ressourcen benötigt

5 geniale Anwendungsmöglichkeiten von ChatGPT und was Sie damit anfangen sollten

93 % der Unternehmensführer bevorzugen KI-gestützte Lösungen für das Nachhaltigkeitsmanagement von Marken, Reuters

So unterstützt Macron Frankreichs dynamisches und produktives KI-Ökosystem

Bloomberg schätzt, dass der Markt für generative KI bis 2032 ein Volumen von 1,3 Billionen US-Dollar erreichen wird

Ein prägnanter Brief.
Jeden Tag.

Google und Harvard stellen einen Datensatz mit 1 Million gemeinfreien Büchern für das KI-Training vor

Harvard erhielt finanzielle Unterstützung von Technologiegiganten

Für den Harvard-Datensatz werden mehr Ressourcen benötigt

5 geniale Anwendungsmöglichkeiten von ChatGPT und was Sie damit anfangen sollten

93 % der Unternehmensführer bevorzugen KI-gestützte Lösungen für das Nachhaltigkeitsmanagement von Marken, Reuters

So unterstützt Macron Frankreichs dynamisches und produktives KI-Ökosystem

Bloomberg schätzt, dass der Markt für generative KI bis 2032 ein Volumen von 1,3 Billionen US-Dollar erreichen wird

Ein prägnanter Brief.Jeden Tag.

Ein prägnanter Brief.
Jeden Tag.