DeepSeek dévoile le mHC, mais se heurte à des obstacles liés à l'évaluation par les pairs

- DeepSeek propose une nouvelle façon de faire évoluer l'IA sans puissance de calcul supplémentaire.
- Les chercheurs entrevoient des perspectives prometteuses, mais préviennent que des tests supplémentaires sont encore nécessaires.
- mHC pourrait transformer la manière dont les grands modèles de langage sont entraînés.
À l'heure où les coûts croissants de développement et de maintenance de l'IA et la quantité limitée de matériel disponible posent problème, DeepSeek a présenté un nouveau plan pour développer et faire évoluer l'intelligence artificielle (IA).
Cette start-up chinoise affirme pouvoir créer des modèles d'IA nettement plus performants sans pour autant ajouter de puces et donc augmenter la consommation d'énergie. Bien que le concept mHC proposé ait suscité un vif intérêt chez de nombreux chercheurs, il est généralement considéré comme étant encore à ses débuts.
Des recherches supplémentaires seront nécessaires pour déterminer les avantages de cette approche dans le développement de systèmes d'IA de plus grande envergure. Un document technique détaillant le concept mHC a été publié la semaine dernière ; il est co-écrit par Liang Wenfeng, fondateur et PDG de DeepSeek.
DeepSeek repense la conception des réseaux pour faire évoluer l'IA
L'un des principaux volets de ce travail consiste en une réévaluation de la manière dont l'information est transférée entre les différentes couches d'un réseau neuronal multicouche.
Chaque couche d'un réseau neuronal transmet une forme d'information traitée à la couche suivante du modèle, créant ainsi ce que l'on appelle un « réseau d'apprentissage résiduel » (ResNet). Développés il y a une dizaine d'années par Kaiming He de Microsoft Research et ses collaborateurs, les ResNets ont fourni la base fondamentale de nombreux systèmes d'IA parmi les plus avancés d'aujourd'hui.
Un concept développé par DeepSeek a été créé après l'introduction des Hyper-Connections en 2024. Les Hyper-Connections permettent à l'information de circuler par plusieurs chemins à travers un réseau, plutôt que par un seul chemin principal, ce qui peut accélérer l'apprentissage et enrichir l'expérience.
Cependant, bien qu'elles puissent être bénéfiques, elles peuvent également conduire à desmatic d'entraînement, où les modèles subissent une instabilité d'entraînement ou un échec complet.
Selon Song Linqi (Université de la ville de Hong Kong), les recherches de DeepSeek s'inscrivent dans la continuité d'une idée existante, dans le prolongement de la manière dont DeepSeek analyse le travail d'autres entreprises, au lieu d'inventer quelque chose à partir de zéro.
ResNet est comparé à une autoroute à une seule voie, tandis que les hyperconnexions ressemblent à une autoroute à plusieurs voies ; cependant, Song a averti que la présence de plusieurs voies sans règles appropriées pourrait entraîner davantage de collisions.
Le professeur Guo Song de l'Université des sciences et technologies de Hong Kong estime que cet article de recherche pourrait annoncer une évolution des pratiques de recherche en intelligence artificielle. Plutôt que de se contenter de modifications mineures des modèles existants, il pense que la recherche pourrait s'orienter vers le développement de nouveaux modèles fondés sur des concepts théoriques.
Des chercheurs testent le complexe majeur d'histocompatibilité (CMH) mais soulèvent des problèmes pratiques
Bien que l'étape récemment franchie dans les tests de mHC pour l'apprentissage profond suscite l'enthousiasme, les experts soulignent que la recherche est loin d'être terminée. Les tests effectués par DeepSeek n'ont utilisé que quatre ensembles de données pour tester des modèles comportant 27 milliards de paramètres.
« Les expériences ont validé des modèles comportant jusqu'à 27 milliards de paramètres, mais comment se comporteraient-ils sur les modèles de pointe actuels, qui sont d'un ordre de grandeur supérieur ? »
Professeur Guo Song.
Les modèles d'IA disponibles aujourd'hui sont plus volumineux et comportent généralement des centaines de milliards de paramètres, contre 30 milliards il y a quelques années seulement.
Guo a partagé ce point de vue et a déclaré qu'il est encore trop tôt pour affirmer que mHC sera capable de mener des recherches à la pointe de l'intelligence artificielle. Il a également indiqué que l'infrastructure nécessaire au fonctionnement de mHC pourrait être trop complexe pour être utilisée par les petits instituts de recherche ou par les entreprises sur des appareils mobiles.
Selon Cryptopolitan, la popularité de DeepSeek est due à la sortie de leur modèle de langage étendu DeepSeek V3, et à la sortie ultérieure de leur modèle de raisonnement DeepSeek-R1 seulement quelques semaines plus tard.
Lors de tests de référence comparant les résultats des modèles à ceux de leurs concurrents, les deux modèles ont pu atteindre ou dépasser les résultats de leurs concurrents, bien qu'ils n'aient utilisé qu'une fraction des données d'entraînement utilisées pour les autres modèles de langage concurrents.
Les plus grands experts en cryptomonnaies lisent déjà notre newsletter. Envie d'en faire partie ? Rejoignez-les!
LES
- Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
- Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
- Stratégies d'investissement peu connues utilisées par les professionnels
- Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)














