DeepSeek, la société chinoise spécialisée dans les technologies de l'information, a lancé un nouveau modèle expérimental, V3.2-Exp, dans le cadre de sa stratégie visant à concurrencer la domination américaine en intelligence artificielle. Ce modèle a été dévoilé lundi et annoncé initialement sur Hugging Face, un forum populaire dédié à l'IA.
DeepSeek affirme que cette dernière version s'appuie sur son modèle actuel, V3.1-Terminus, mais avec un accent encore plustronsur la vitesse, le coût et la gestion de la mémoire.
Selon Adina Yakefu, responsable de la communauté chinoise de Hugging Face, le modèle intègre une fonctionnalité appelée DeepSeek Sparse Attention, ou DSA, qui, selon elle, « améliore la capacité de l'IA à gérer les longs documents et les conversations » tout en réduisant de moitié les coûts d'exploitation.
Pour rappel , il y a environ un an, DeepSeek a créé la surprise en dévoilant son premier modèle, R1, sans prévenir. Ce modèle a démontré qu'il était possible d'entraîner un modèle de langage complexe avec moins de puces et une puissance de calcul bien moindre. Personne ne s'attendait à ce qu'une équipe chinoise y parvienne dans de telles conditions. Avec la version 3.2-Exp, l'objectif reste le même : moins de matériel, plus de performances.
Ajoute l'attention clairsemée DeepSeek et réduit le coût d'exécution de l'IA
L'algorithme DSA est la principale caractéristique de ce modèle. Il modifie la façon dont l'IA sélectionne les informations à analyser. Au lieu de tout analyser, DeepSeek entraîne le modèle à se concentrer uniquement sur ce qui semble utile pour la tâche. Adina a expliqué que le bénéfice est double : « gain d'efficacité » et « réduction des coûts ».
En éliminant les données non pertinentes, le modèle est plus rapide et moins énergivore. Elle a précisé que le modèle avait été conçu dans une optique de collaboration open source.
Nick Patience, responsable de la recherche en IA chez The Futurum Group, a déclaré à CNBC que ce modèle pourrait permettre aux développeurs n'ayant pas les moyens d'utiliser des modèles plus onéreux d'accéder à de puissants outils d'IA. « Il devrait rendre le modèle plus rapide et plus économique à utiliser, sans baisse notable de performance », a-t-il affirmé. Mais cela ne signifie pas pour autant qu'il est sans risque.
La manière dont DeepSeek utilise l'attention parcimonieuse est comparable à la façon dont les compagnies aériennes choisissent leurs itinéraires. Il existe peut-être des centaines de façons de se rendre d'un point A à un point B, mais seules quelques-unes sont pertinentes. Le modèle filtre les informations superflues et se concentre sur l'essentiel, ou du moins sur ce qu'il considère comme essentiel.
Mais cela soulève des inquiétudes. Ekaterina Almasque, cofondatrice de BlankPage Capital, l'explique simplement : « En gros, on élimine ce qu'on juge non important. » Le problème, selon elle, est qu'il n'y a aucune garantie que ce modèle permette d'éliminer les bonnes choses.
Ekaterina, qui a investi dans des entreprises comme Dataiku,tracet Graphcore, a averti que les raccourcis pris pourraient engendrer des problèmes ultérieurement. « Ces modèles [à attention parcimonieuse] ont perdu beaucoup de nuances », a-t-elle déclaré. « La vraie question est alors : disposaient-ils du mécanisme adéquat pour exclure les données non pertinentes, ou bien existe-t-il un mécanisme excluant des données cruciales, auquel cas le résultat sera bien moins pertinent ? »
Se connecte aux puces chinoises et publie du code ouvert
Malgré ces inquiétudes, DeepSeek affirme que la version V3.2-Exp est aussi performante que la version V3.1-Terminus. Le modèle peut également fonctionner directement sur des puces chinoises comme Ascend et Cambricon, sans configuration supplémentaire. C'est un point clé dans la stratégie chinoise visant à développer l'IA sur du matériel national et à réduire sa dépendance aux technologies étrangères. « Dès sa sortie de l'emballage », a déclaré Adina, DeepSeek est compatible avec ces puces.
L'entreprise a également rendu public l'intégralité du code source et des outils du modèle. Ainsi, chacun peut télécharger, exécuter, modifier ou développer des applications à partir de la version V3.2-Exp. Cette initiative s'inscrit dans la stratégie open source de DeepSeek, mais soulève une autre question : les brevets. Le modèle étant ouvert et son concept central, l'attention sparse, existant depuis 2015, DeepSeek ne peut pas le verrouiller légalement.
« Cette approche n’est pas totalement inédite », a déclaré Ekaterina. Pour elle, le seul aspect défendable de cette technologie réside dans la manière dont DeepSeek sélectionne les données à conserver et celles à ignorer.
C’est là que réside désormais le véritable enjeu de la concurrence. Il ne s’agit pas seulement de créer des modèles plus intelligents, mais aussi de les rendre plus rapides, moins coûteux et plus performants, sans compromettre la qualité des résultats. DeepSeek a même qualifié cette version d’« étape intermédiaire vers notre architecture de nouvelle génération », ce qui laisse supposer qu’ils travaillent déjà sur un projet d’envergure.
Nick a déclaré que le modèle démontre que l'efficacité est désormais tout aussi importante que la puissance brute. Adina, quant à elle, est convaincue que l'entreprise a une vision à long terme. « DeepSeek mise sur la durée pour maintenir l'intérêt de la communauté pour ses progrès », a-t-elle affirmé. « Les gens privilégieront toujours ce qui est bon marché, fiable et efficace. »
Photo de 