La Norvège est en voie de faire progresser son programme de maîtrise en droit (LLM)

Par

Aamir Sheikh

3 minutes de lecture 14 avril 2024

La Norvège a récemment développé trois grands modèles linguistiques.
L'Université d'Oslo a développé ces modèles à des fins de recherche et de développement.
Lumi, l'ordinateur le plus puissant d'Europe, a été utilisé pour former les étudiants en master de droit en Finlande.

Le groupe de recherche en technologies du langage (LTG) de l'Université d'Oslo a développé trois grands modèles de langage norvégiens (LLM). Ce projet a été rendu possible grâce à l'accès accordé aux chercheurs à Lumi, le supercalculateur le plus puissant d'Europe, situé en Finlande. Avant Noël, les chercheurs du LTG ont entraîné leurs LLM sur Lumi et traité un important volume de données afin de lancer trois modèles différents pour tester le modèle ChatGPT. L'accès à Lumi est sélectif : les chercheurs doivent en faire la demande au préalable et attendre leur tour. Cependant, la puissance de ce supercalculateur accélère considérablement le processus d'entraînement des données.

Pourquoi les Norvégiens veulent leur propre modèle linguistique étendu (LLM)

Les Norvégiens souhaitaient développer leur propre modèle linguistique, car celui-ci présentait de nombreux avantages, au-delà de son intégration dans la langue maternelle, pour une adoption plus large. Soulignant les différents problèmes liés aux solutions commerciales, Erik Velldal, professeur d'maticà l'université d'Oslo, a déclaré :

« Les modèles linguistiques des géants de la technologie posent de nombreux problèmes. Ils apparaissent comme des boîtes noires pour le monde extérieur. Nous avons besoin d'alternatives norvégiennes. »
Source : Erik Velldal.

Auparavant, la Bibliothèque nationale de Norvège et l'Université d'Oslo avaient travaillé sur une poignée de modèles de langue norvégienne, mais ceux développés actuellement sont les plus importants à ce jour, avec plus de 30 milliards de mots d'entraînement.

Le rôle de Lumi est crucial car l'entraînement des modèles d'IA requiert une puissance de calcul considérable, notamment de nombreux GPU. L'augmentation du nombre de GPU accélère le processus d'entraînement, et Lumi offre une solution idéale grâce à ses plus de 10 000 GPU intégrés.

Le professeur agrégé Andrey Kutuzov explique que, parmi les nombreuses raisons justifiant un modèle de langue norvégien, figure le fait que des modèles comme ChatGPT ne s'adaptent pas bien aux connaissances et aux valeurs de la Norvège. Ces modèles sont principalement entraînés sur les langues américaines et l'anglais ; ils reflètent donc defila culture et les valeurs américaines, alors que les Norvégiens avaient besoin d'un modèle correspondant à leurs propres préférences. Il ajoute :

« Un modèle linguistique norvégien reflétera bien davantage la société telle que nous la connaissons en Norvège. »
Source : Andrey Koutouzov.

Limites des grands modèles linguistiques norvégiens

Les modèles norvégiens, destinés essentiellement aux développeurs et aux chercheurs, ont déjà été lancés et téléchargés par plusieurs milliers de personnes. Kutuzov explique que ces modèles ne sont pas disponibles en ligne, car l'interface web est jugée conviviale pour le grand public. Selon le professeur, ces modèles sont encore loin d'offrir les mêmes possibilités que les modèles commerciaux, car il s'agit de modèles de base généraux.

Au sein du groupe norvégien spécialisé dans les technologies linguistiques, il est admis qu'il est indispensable de développer ses propres modèles pour rivaliser avec ChatGPT d'OpenAI ou LaMDA de Google. Parmi les nombreux constats observés, on note que les modèles commerciaux ne sont accessibles que via leur interface web, le modèle sous-jacent restant inaccessible. Dans de nombreux contextes, confier des données à un prestataire tiers peut donc s'avérer risqué, notamment pour les données médicales, où la confidentialité est primordiale.

Les modèles de langue norvégiens sont assez limités comparés à ChatGPT. En effet, ils ne sont entraînés que sur 0,1 % des données d'entraînement de ChatGPT. Cependant, comme ils ne sont ni fermés ni restreints, ils peuvent mieux servir les chercheurs.

Égaler les qualités et les normes des modèles de langage américains reste un défi de taille, et les modèles norvégiens nécessitent encore des développements. Pour être au même niveau que ChatGPT ou Bard, ils ont besoin d'un entraînement pédagogique afin de pouvoir résoudre des problèmes plus complexes. De nouvelles versions des modèles devraient être lancées prochainement, et le processus se poursuivra.

Les plus grands experts en cryptomonnaies lisent déjà notre newsletter. Envie d'en faire partie ? Rejoignez-les !

Partagez cet article

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Aamir Sheikh

Aamir est un journaliste spécialisé dans les technologies, fort de près de six ans d'expérience dans les secteurs des cryptomonnaies et des technologies. Diplômé de l'université MAJ avec un MBA en finance et marketing, il travaille actuellement pour Cryptopolitan, où il couvre l'actualité des marchés des cryptomonnaies et propose des prévisions de prix.

TABLE DES MATIÈRES

1. Pourquoi les Norvégiens veulent leur propre modèle linguistique étendu (LLM)

2. Limites des grands modèles linguistiques norvégiens

Partagez cet article