La société chinoise DeepSeek présente un modèle d'IA de nouvelle génération destiné à rivaliser avec GPT-5. Mais est-il suffisamment performant ?

By Jai Hamid
Mise à jour : 30 septembre 2025 à 12 h 42 UTC

3 minutes de lecture

Ajoutez-nous comme source privilégiée sur Google

823643

La société chinoise DeepSeek présente un modèle d'IA de nouvelle génération conçu pour rivaliser avec GPT-5. Mais est-il suffisamment performant ?

Photo de Solen Feyissa sur Unsplash .

Contenu

1. Ajoute l'attention clairsemée DeepSeek et réduit le coût d'exécution de l'IA

2. Se connecte aux puces chinoises et publie du code ouvert

Partager le lien :

Dans cet article :

DeepSeek a lancé lundi son nouveau modèle V3.2-Exp, axé sur la vitesse, la réduction des coûts et la gestion de grands volumes de données.
Le modèle introduit DeepSeek Sparse Attention, qui ignore les données non pertinentes afin d'améliorer l'efficacité et de réduire les coûts de moitié.
Les experts avertissent qu'une attention insuffisante pourrait entraîner la suppression d'informations importantes et réduire la fiabilité malgré ses avantages.

DeepSeek, la société chinoise spécialisée dans les technologies de l'information, a lancé un nouveau modèle expérimental, V3.2-Exp, dans le cadre de sa stratégie visant à concurrencer la domination américaine en intelligence artificielle. Ce modèle a été dévoilé lundi et annoncé initialement sur Hugging Face, un forum populaire dédié à l'IA.

DeepSeek affirme que cette dernière version s'appuie sur son modèle actuel, V3.1-Terminus, mais avec un accent encore plustronsur la vitesse, le coût et la gestion de la mémoire.

Selon Adina Yakefu, responsable de la communauté chinoise de Hugging Face, le modèle intègre une fonctionnalité appelée DeepSeek Sparse Attention, ou DSA, qui, selon elle, « améliore la capacité de l'IA à gérer les longs documents et les conversations » tout en réduisant de moitié les coûts d'exploitation.

Pour rappel , il y a environ un an, DeepSeek a créé la surprise en dévoilant son premier modèle, R1, sans prévenir. Ce modèle a démontré qu'il était possible d'entraîner un modèle de langage complexe avec moins de puces et une puissance de calcul bien moindre. Personne ne s'attendait à ce qu'une équipe chinoise y parvienne dans de telles conditions. Avec la version 3.2-Exp, l'objectif reste le même : moins de matériel, plus de performances.

Ajoute l'attention clairsemée DeepSeek et réduit le coût d'exécution de l'IA

L'algorithme DSA est la principale caractéristique de ce modèle. Il modifie la façon dont l'IA sélectionne les informations à analyser. Au lieu de tout analyser, DeepSeek entraîne le modèle à se concentrer uniquement sur ce qui semble utile pour la tâche. Adina a expliqué que le bénéfice est double : « gain d'efficacité » et « réduction des coûts ».

En éliminant les données non pertinentes, le modèle est plus rapide et moins énergivore. Elle a précisé que le modèle avait été conçu dans une optique de collaboration open source.

Voir aussi L'émergence de Hong Kong comme pôle d'attraction pour les startups et les applications d'IA

Nick Patience, responsable de la recherche en IA chez The Futurum Group, a déclaré à CNBC que ce modèle pourrait permettre aux développeurs n'ayant pas les moyens d'utiliser des modèles plus onéreux d'accéder à de puissants outils d'IA. « Il devrait rendre le modèle plus rapide et plus économique à utiliser, sans baisse notable de performance », a-t-il affirmé. Mais cela ne signifie pas pour autant qu'il est sans risque.

La manière dont DeepSeek utilise l'attention parcimonieuse est comparable à la façon dont les compagnies aériennes choisissent leurs itinéraires. Il existe peut-être des centaines de façons de se rendre d'un point A à un point B, mais seules quelques-unes sont pertinentes. Le modèle filtre les informations superflues et se concentre sur l'essentiel, ou du moins sur ce qu'il considère comme essentiel.

Mais cela soulève des inquiétudes. Ekaterina Almasque, cofondatrice de BlankPage Capital, l'explique simplement : « En gros, on élimine ce qu'on juge non important. » Le problème, selon elle, est qu'il n'y a aucune garantie que ce modèle permette d'éliminer les bonnes choses.

Ekaterina, qui a investi dans des entreprises comme Dataiku,tracet Graphcore, a averti que les raccourcis pris pourraient engendrer des problèmes ultérieurement. « Ces modèles [à attention parcimonieuse] ont perdu beaucoup de nuances », a-t-elle déclaré. « La vraie question est alors : disposaient-ils du mécanisme adéquat pour exclure les données non pertinentes, ou bien existe-t-il un mécanisme excluant des données cruciales, auquel cas le résultat sera bien moins pertinent ? »

Se connecte aux puces chinoises et publie du code ouvert

Malgré ces inquiétudes, DeepSeek affirme que la version V3.2-Exp est aussi performante que la version V3.1-Terminus. Le modèle peut également fonctionner directement sur des puces chinoises comme Ascend et Cambricon, sans configuration supplémentaire. C'est un point clé dans la stratégie chinoise visant à développer l'IA sur du matériel national et à réduire sa dépendance aux technologies étrangères. « Dès sa sortie de l'emballage », a déclaré Adina, DeepSeek est compatible avec ces puces.

Voir aussi Comment l'IA transforme les emplois de bureau en tâches sans effort ?

L'entreprise a également rendu public l'intégralité du code source et des outils du modèle. Ainsi, chacun peut télécharger, exécuter, modifier ou développer des applications à partir de la version V3.2-Exp. Cette initiative s'inscrit dans la stratégie open source de DeepSeek, mais soulève une autre question : les brevets. Le modèle étant ouvert et son concept central, l'attention sparse, existant depuis 2015, DeepSeek ne peut pas le verrouiller légalement.

« Cette approche n’est pas totalement inédite », a déclaré Ekaterina. Pour elle, le seul aspect défendable de cette technologie réside dans la manière dont DeepSeek sélectionne les données à conserver et celles à ignorer.

C’est là que réside désormais le véritable enjeu de la concurrence. Il ne s’agit pas seulement de créer des modèles plus intelligents, mais aussi de les rendre plus rapides, moins coûteux et plus performants, sans compromettre la qualité des résultats. DeepSeek a même qualifié cette version d’« étape intermédiaire vers notre architecture de nouvelle génération », ce qui laisse supposer qu’ils travaillent déjà sur un projet d’envergure.

Nick a déclaré que le modèle démontre que l'efficacité est désormais tout aussi importante que la puissance brute. Adina, quant à elle, est convaincue que l'entreprise a une vision à long terme. « DeepSeek mise sur la durée pour maintenir l'intérêt de la communauté pour ses progrès », a-t-elle affirmé. « Les gens privilégieront toujours ce qui est bon marché, fiable et efficace. »

Si vous lisez ceci, vous avez déjà une longueur d'avance. Restez-y grâce à notre newsletter .

Partager le lien :

Lire l'avertissement

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. Cryptopolitan.com Cryptopolitan toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous vous recommandons vivement d’effectuer vos tron dent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Articles les plus lus

Restez informé(e) de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte mail

Choix de la rédaction

Chargement des articles sélectionnés par la rédaction...

La société chinoise DeepSeek présente un modèle d'IA de nouvelle génération destiné à rivaliser avec GPT-5. Mais est-il suffisamment performant ?

Contenu

Dans cet article :

Ajoute l'attention clairsemée DeepSeek et réduit le coût d'exécution de l'IA

Se connecte aux puces chinoises et publie du code ouvert

Partager le lien :

Articles les plus lus

Restez informé(e) de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte mail

Choix de la rédaction

Inscrivez-vous et restez au sommet

Les marchés évoluent rapidement.

Nous avançons plus vite.

Entrez. Renseignez-vous.
Prenez de l'avance.

La société chinoise DeepSeek présente un modèle d'IA de nouvelle génération destiné à rivaliser avec GPT-5. Mais est-il suffisamment performant ?

Contenu

Dans cet article :

Ajoute l'attention clairsemée DeepSeek et réduit le coût d'exécution de l'IA

Se connecte aux puces chinoises et publie du code ouvert

Partager le lien :

Articles les plus lus

Restez informé(e) de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte mail

Choix de la rédaction

Inscrivez-vous et restez au sommet

Suivez-nous

- La newsletter crypto qui vous donne une longueur d'avance -

Les marchés évoluent rapidement.

Nous avançons plus vite.

Entrez. Renseignez-vous. Prenez de l'avance.

Entrez. Renseignez-vous.
Prenez de l'avance.