La start-up chinoise DeepSeek, spécialisée dans l'intelligence artificielle (IA), a dévoilé une nouvelle méthode de raisonnement, alors que le marché attend avec impatience la sortie de son modèle de nouvelle génération. Selon certaines sources, l'entreprise vient de présenter une approche inédite qui améliorera les capacités de raisonnement des grands modèles de langage (LLM), tandis que le public est en attente de la publication de son nouveau modèle.
D'après , cette prouesse a été réalisée grâce à une collaboration entre des chercheurs de l'université Tsinghua et la start-up spécialisée en intelligence artificielle DeepSeek. Selon cet article, DeepSeek a développé une technique combinant la modélisation générative des récompenses (GRM) et l'optimisation par principes. Cette double approche permettra aux modèles de langage naturel (LLM) de fournir des résultats plus performants et plus rapides pour les requêtes courantes.
DeepSeek dévoile une nouvelle méthode de raisonnement en IA
D'après les chercheurs, les modèles DeepSeek-GRM obtenus surpassent les méthodes existantes et offrent des performances compétitives face aux modèles de récompense publics lestron. La modélisation des récompenses est un processus qui permet à un modèle linéaire mixte (LLM) de déterminer les préférences humaines. Les chercheurs ont indiqué que la start-up spécialisée en IA prévoit de rendre les modèles GRM open source, mais n'a pas encore communiqué de calendrier de développement.
Cette publication d'un article de recherche universitaire intervient après des spéculations quant à la prochaine étape de la startup, enjà l'attention mondiale suscitée par son modèle de base DeepSeek V3 et son modèle de raisonnement R1. À l'époque, le modèle R1, lancé plus tôt cette année, s'était distingué par ses performances supérieures à celles de certains modèles plus anciens, notamment le premier modèle ChatGPT d'OpenAI.
La publication du modèle R1 a également pris la Silicon Valley au dépourvu, d'autant plus que ce modèle était open source et avait été réalisé à un coût bien inférieur à celui des autres modèles d'IA. Si l'intérêt semble s'estomper, les progrès remarquables accomplis par les entreprises concurrentes du secteur de l'IA témoignent d'une rivalité toujours aussi intense.
Cependant, un article de Reuters paru le mois dernier mentionnait que DeepSeek-2, successeur du R1, mondialement reconnu, serait en préparation. Selon cet article, l'entreprise envisagerait de le commercialiser vers la fin du mois, afin de tirer profit de sa notoriété croissante dans le secteur de l'IA. DeepSeek, de son côté, reste muet sur le sujet concernant le modèle R2, gardant le silence sur ses canaux de communication officiels. Son service client aurait même démenti la rumeur auprès de ses clients professionnels, d'après certaines sources.
Le développement du modèle V3 se poursuit
Fondée en 2023 par l'entrepreneur Liang Wenfeng et basée à Hangzhou, DeepSeek a fait parler d'elle à l'échelle mondiale ces derniers mois, et ce, pour de bonnes raisons. L'entreprise refuse toutefois toute communication publique, préférant concentrer tous ses efforts sur la recherche et le développement. Si ses projets pour l'intelligence artificielle restent encore à découvrir, les rumeurs vont bon train quant à son développement.
Le mois dernier, l'entreprise a annoncé le développement d'un nouveau modèle en cours de développement, DeepSeek-V3-0324, présenté au monde entier. Selon elle, ce modèle amélioré offre des capacités de raisonnement accrues, un développement web front-end optimisé et une meilleure maîtrise de l'écriture chinoise. En février, l'entreprise a externalisé cinq de ses dépôts de code, permettant ainsi aux développeurs de consulter et de contribuer au développement du logiciel. La start-up a affirmé vouloir progresser de manière concrète et en toute transparence
Le même mois, Liang a publié une étude technique sur l'attention parcimonieuse native, une méthode permettant d'améliorer l'efficacité des modèles linéaires logiques (LLM) dans le traitement de grands volumes de données. Liang, âgé de 40 ans, est également le fondateur de High-Flyer Quant, la société mère de DeepSeek, un fonds spéculatif qui a fourni les ressources financières nécessaires au financement des avancées techniques de cette startup spécialisée en IA. Fin février, l'entrepreneur a participé à un symposium réunissant des entrepreneurs du secteur technologique, sous l'égide du président chinois dent Jinping. Ce dernier dent salué la startup comme un signe de la résilience du pays face aux mesures prises par les États-Unis pour freiner les progrès de la Chine en matière d'IA.

