La société chinoise DeepSeek affirme que son système d'IA phare, connu sous le nom de R1, a été entraîné pour seulement 294 000 dollars, soit une fraction des sommes que ses concurrents américains auraient dépensées.
Les détails ont été publiés cette semaine dans un article scientifique de la revue Nature, et cette publication risque d'alimenter le débat sur les ambitions de Pékin dans la course mondiale à l'intelligence artificielle. L'entreprise basée à Hangzhou a indiqué que le modèle axé sur le raisonnement avait été entraîné à l'aide de 512 puces Nvidia H800. Ce matériel a été conçu spécifiquement pour la Chine après l'interdiction par les États-Unis de la vente des processeurs H100 et A100, plus performants.
Cet article, co-écrit par le fondateur Liang Wenfeng, marque la première fois que l'entreprise divulgue de tels coûts.
DeepSeek utilise une fraction du coût des modèles américains
En janvier, la sortie des outils d'IA moins chers de DeepSeek a déstabilisé les marchés mondiaux, entraînant une vente massive d'actions technologiques par crainte qu'ils ne puissent concurrencer des géants établis tels que Nvidia et OpenAI.
Cependant, Liang et son équipe sont restés discrets, ne faisant surface que sporadiquement depuis lors pour des mises à jour de produits.
Le prix annoncé de 294 000 dollars contraste fortement avec les estimations des entreprises américaines.
En 2023, Sam Altman, directeur général d'OpenAI, déclarait : « L'entraînement des modèles fondamentaux coûte bien plus de 100 millions de dollars. » Il n'a cependant fourni aucun détail précis.
L'entraînement de grands modèles de langage nécessite le fonctionnement de bancs de puces puissantes pendant de longues périodes, ce qui entraîne une consommation électrique considérable pour le traitement du texte et du code. Les observateurs du secteur estiment depuis longtemps que le coût de tels projets se chiffre en dizaines, voire en centaines de millions d'euros.
Cette hypothèse est aujourd'hui remise en question. Dans un document complémentaire, DeepSeek a admis posséder des puces A100 et les avoir utilisées lors des premières phases de développement, avant de transférer l'entraînement complet sur son cluster H800. Selon l'entreprise, le modèle a fonctionné pendant 80 heures lors de sa phase finale d'entraînement.
Bien qu'Nvidia ait insisté sur le fait que la start-up chinoise n'a accès qu'à ses processeurs H800, les autorités américaines restent sceptiques. Il y a quelques mois, des sources américaines ont indiqué à Reuters que DeepSeek détenait illégalement d'importants volumes de puces H100, dont l'exportation vers la Chine est interdite.
Mettre l'innovation sous le microscope
R1 a attiré l'attention non seulement pour ses faibles coûts de formation, mais aussi parce qu'il pourrait être le premier modèle majeur à faire l'objet d'une évaluation formelle par les pairs.
« C’est undenttrès positif, et si nous n’avons pas cette norme de partage, il devient très difficile d’évaluer les risques », a déclaré Lewis Tunstall, ingénieur en apprentissage automatique chez Hugging Face, qui a examiné l’article de Nature.
Le processus d'examen a incité DeepSeek à clarifier certains détails techniques, notamment la manière dont son modèle a été entraîné et les mesures de protection mises en place.
« Le fait de se soumettre à un processus rigoureux d’évaluation par les pairs contribue certainement à vérifier la validité et l’utilité du modèle », a déclaré Huan Sun, chercheur en intelligence artificielle à l’Université d’État de l’Ohio.
L'avancée majeure de DeepSeek réside dans l'utilisation d'une approche d'apprentissage par renforcement. Au lieu de s'appuyer sur des exemples de raisonnement sélectionnés par des humains, le modèle, comme l'indique l'article, était récompensé pour la résolution correcte des problèmes et développait progressivement ses propres stratégies de résolution.
L'entreprise affirme que ce système d'essais et d'erreurs a permis à R1 de vérifier son fonctionnement sans copier les tactiques humaines.
« Ce modèle a eu une influence considérable », a ajouté Sun. « Presque tous les travaux sur l'apprentissage par renforcement en 2025 auront probablement été inspirés, d'une manière ou d'une autre, par R1. »
DeepSeek nie toute accusation de plagiat
Peu après la sortie de R1, des rumeurs ont circulé selon lesquelles DeepSeek se serait appuyé sur les résultats de ses concurrents, notamment d'OpenAI, pour accélérer l'entraînement ; cependant, la société a catégoriquement démenti cette accusation.
Dans ses échanges avec les relecteurs, DeepSeek a insisté sur le fait que R1 n'avait pas copié les exemples de raisonnement générés par OpenAI. Cependant, comme la plupart des grands modèles de langage, il a été entraîné sur du texte provenant d'Internet. Cela signifie que certains contenus produits par l'IA ont inévitablement été inclus, et cette explication a convaincu certains relecteurs.
« Je ne peux pas affirmer avec certitude que R1 n'a pas été entraîné sur des exemples d'OpenAI. Cependant, les tentatives de réplication menées par d'autres laboratoires suggèrent que l'apprentissage par renforcement est suffisamment performant en soi », a déclaré Tunstall.
DeepSeek affirme que R1 est conçu pour exceller dans les tâches de raisonnement complexes telles que la programmation et les calculsmatic. Contrairement à la plupart des systèmes propriétaires développés par des entreprises américaines, il a été publié en tant que modèle open-weight, téléchargeable gratuitement par les chercheurs. Sur le site communautaire d'IA Hugging Face, il a déjà été téléchargé plus de 10 millions de fois.
L'entreprise a investi environ 6 millions de dollars dans le développement du modèle de base sur lequel repose R1, mais même en tenant compte de cet investissement, ses coûts restent bien inférieurs à ceux de ses concurrents. Pour de nombreux acteurs du secteur, cela rend R1trac.
Sun et ses collègues ont récemment testé le système sur des tâches de traitement de données scientifiques et ont constaté qu'il n'était pas le plus précis, mais parmi les meilleurs en termes de rapport coût-performance.

