La startup de l'intelligence artificielle chinoise (IA), Deepseek, a dévoilé une nouvelle méthode de raisonnement alors que le marché continue d'anticiper la sortie de son modèle de nouvelle génération. Selon les rapports, la société vient d'introduire une nouvelle approche qui aidera les capacités de raisonnement des modèles de grande langue (LLM), car le public attend la sortie de son nouveau modèle.
Selon des rapports, un article publié a récemment révélé que l'exploit avait été réalisé via une collaboration entre des chercheurs de l'Université Tsinghua et la startup de l'IA. Selon l'article, Deepseek a pu développer une technique qui combine des méthodes appelées modélisation générative de récompense (GRM) et un réglage autoprincipant. La double approche permettra aux LLM de fournir des résultats meilleurs et plus rapides aux requêtes générales.
Deepseek révèle une nouvelle méthode de raisonnement d'IA
Selon les chercheurs, les modèles Deepseek-Grm qui en résultent ont pu surpasser les méthodes existantes, réalisant une performance compétitive avec les modèles de récompense publiquetronG. La modélisation des récompenses est un processus qui aide un LLM à déterminer les préférences humaines. Les chercheurs ont mentionné que la startup en IA a l'intention de rendre les modèles GRM open source, mais la société n'a pas encore donné de calendrier pour le développement.
Le document de recherche académique publié arrive après des spéculations sur le prochain mouvement potentiel de la startup après enjinterdit l'attention mondiale qu'elle a rassemblée à partir de son modèle de fondation Deepseek V3 et de son modèle de raisonnement R1. À l'époque, le modèle R1, qui a été publié plus tôt cette année, a acquis une importance après avoir été découvert qu'il a mieux performé que certains modèles plus anciens, y compris le premier modèle Chatgpt d'Openai.
La libération du modèle R1 a également attiré la Silicon Valley au dépourvu, compte tenu du fait que le modèle était open source et a été achevé avec une fraction des coûts utilisés dans d'autres modèles d'IA. Bien que l'attention semble ralentir, il y a eu des progrès remarquables parmi les entreprises rivales dans l'industrie de l'IA, montrant que la rivalité dans le secteur est une pour les âges.
Cependant, un rapport de Reuters a mentionné le mois dernier que Deepseek-2, le successeur du R1 célébré à l'échelle mondiale pourrait être en préparation. Selon le rapport, la société pourrait chercher à la publier vers la fin de ce mois, car elle cherche à capitaliser sur son profil croissant dans l'industrie de l'IA. Deepseek, en revanche, est resté serré sur le modèle R2, en maintenant le silence sur les canaux publics officiels, avec un compte de service à la clientèle niant la rumeur avec les clients commerciaux.
Le développement du modèle V3 se poursuit
Deepseek, basé à Hangzhou, a été fondée en 2023 par l'entrepreneur Liang Wenfeng et a été sous les projecteurs mondiaux pour les bonnes raisons au cours des derniers mois. Cependant, l'entreprise a refusé de faire des communications publiques, décidant de concentrer tout son temps et son énergie sur la recherche et le développement. Bien qu'il reste à voir ce que l'entreprise a pour l'industrie de l'IA, elle a sûrement cuisine, grâce aux rumeurs.
Le mois dernier, la société a annoncé un développement sur lequel elle a travaillé, montrant son modèle V3 amélioré nommé Deepseek-V3-0324 vers le monde. Selon le cabinet, le modèle amélioré a offert des «capacités de raisonnement améliorées, optimisé le développement Web frontal et amélioré la maîtrise de l'écriture chinoise». En février, la société a dépassé cinq de ses référentiels de code, permettant aux développeurs d'examiner et de contribuer à son développement de logiciels. Le startup a mentionné que cela ferait «des progrès sincères avec une transparence totale».
Le même mois, Liang a publié une étude technique sur l'attention indigène clairsemée, une méthode utilisée pour améliorer l'efficacité des LLM dans le traitement de grandes quantités de données. Liang, 40 ans, est également le fondateur de la société mère de Deepseek, High-Flyer Quant, le fonds spéculatif qui a fourni les prouesses financières pour financer les avancées techniques de la startup de l'IA. Fin février, l'entrepreneur faisait partie d'un symposium qui assemblait des entrepreneurs technologiques, avec un président chinois dent Jinping les hébergeant. Le dent a salué la startup comme un signe de la résilience du pays face aux mesures des États-Unis pour contenir les progrès de l'IA de la Chine.
Le fil de différence clé aide les marques de crypto à briser et à dominer les titres rapidement