Google et Harvard lancent un ensemble de données contenant un million de livres du domaine public pour l'entraînement de l'IA

Par

Enacy Mapakame

Temps de lecture : 2 minutes - 12 décembre 2024

Cette initiative permettra aux entreprises spécialisées en IA d'accéder à davantage d'informations pour entraîner leurs modèles.
OpenAI et Microsoft ont financé le projet de Harvard.
Ces quelque un million de livres, de tous genres confondus, ont été numérisés dans le cadre du programme Google Livres.

L'université Harvard, en collaboration avec Google, a publié un ensemble de données comprenant un million de livres du domaine public afin de former la prochaine génération d'IA.

Ces ouvrages couvrent un large éventail de genres, de langues et d'auteurs, tels que Dickens, Dante et Shakespeare, qui ne sont plus protégés par le droit d'auteur en raison de leur ancienneté. Cette nouvelle initiative de création de bases de données intervient alors que les données d'entraînement pour l'IA sont naturellement onéreuses et plutôt destinées aux entreprises technologiques disposant de ressources financières importantes.

Harvard a obtenu le soutien financier de géants de la technologie.

Selon un article de TechCrunch, cette initiative est menée par l'Institutional Data Initiative (IDI) de Harvard. Elle comprend des ouvrages issus du projet de numérisation de livres de Google, Google Livres.

Parmi les autres ouvrages contenus dans l'ensemble de données figurent des manuels de mathématiques tchèques et des dictionnaires de poche gallois.

L'université avait évoqué l'IDI en mars, déclarant clairement son intention de créer un « canal de confiance pour les données juridiques destinées à l'IA ». Depuis, on n'en avait plus beaucoup entendu parler jusqu'à son lancement officiel jeudi, financé par les géants technologiques Microsoft et OpenAI.

Ces données ne sont pas l'apanage de la seule Silicon Valley ; IDI les a ouvertes à tous, des laboratoires de recherche aux startups spécialisées en IA qui souhaitent entraîner leurs grands modèles de langage.

En ouvrant l'ensemble de données à tous, le directeur exécutif d'IDI, Greg Leppert, a déclaré que cet ensemble de données visait à égaliser les chances, à un moment où le coût de la formation de l'IA reste élevé et prohibitif pour les petites entreprises, la réservant ainsi à celles qui disposent de budgets énormes.

Leppert a ajouté que l'ensemble de données est « rigoureusement examiné », ce qui, selon Fudzilla, signifie vraisemblablement que quelqu'un a vérifié que Bard était bien parti et hors de danger.

L'ensemble de données de Harvard aura besoin de davantage de ressources.

Selon Leppert, qui a comparé le potentiel de cet ensemble de données à celui de Linux, le système d'exploitation libre, le succès du projet de données de Harvard dépendra de plusieurs facteurs. Leppert a précisé que ce succès nécessitera davantage de ressources, d'expertise et un « coup de pouce » de la part de ces mêmes grandes entreprises aux moyens financiers considérables que cette initiative vise à concurrencer.

Le million de livres contenus dans l'ensemble de données ont été numérisés dans le cadre du programme Google Livres. Fudzilla décrit cette initiative comme une capsule temporelle numérique témoignant d'une époque où l'ambition de Google de numériser chaque livre paraissait excentrique plutôt que dystopique.

Toutefois, Leppert se montre optimiste quant aux utilisations potentielles du projet, suggérant en outre qu'il pourrait s'agir d'une véritable mine d'or pour la formation de modèles d'IA, aussi bien pour les jeunes pousses indépendantes que pour les conglomérats.

Si certains ont salué cette initiative comme un bond en avant révolutionnaire dans la démocratisation de l'IA, Fudzilla estime que certains pourraient y voir un moyen subtil de garantir que toute jeune entreprise ambitieuse disposant de quelques téraoctets d'espace serveur puisse désormais participer à la course au développement du prochain ChatGPT.

Cependant, ils auront besoin de davantage de ressources pour être compétitifs et dent sur le marché. ChatGPT, lancé en novembre 2022, a connu un succès immédiat, déclenchant une course mondiale aux modèles d'IA générative. Toutefois, le développement de ces modèles a engendré une soif de données pour les perfectionner, et ce besoin accru de données soulève la question de la quantité d'informations qu'ils peuvent obtenir sans les voler.

À ce jour, des éditeurs comme le Wall Street Journal et le New York Times ont intenté des poursuites contre OpenAI et Perplexity pour utilisation non autorisée de leurs données.

Ne vous contentez pas de lire les actualités crypto. Comprenez-les. Abonnez-vous à notre newsletter. C'est gratuit.

Google

Partagez cet article

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Enacy Mapakame

Enacy Mapakame est une journaliste forte de plus de dix ans d'expérience dans l'actualité économique et financière. Elle couvre les marchés de capitaux et les technologies émergentes, notamment le métavers, l'intelligence artificielle et les cryptomonnaies. Enacy est titulaire d'une licence en études des médias et de la société (avec mention).

TABLE DES MATIÈRES

1. Harvard a obtenu le soutien financier de géants de la technologie.

2. L'ensemble de données de Harvard aura besoin de davantage de ressources.

Partagez cet article