Le géant des puces NVIDIA s'apprête à dévoiler un nouveau processeur d'intelligence artificielle puissant, conçu pour accélérer la génération de réponses par les chatbots et autres outils d'IA, ce qui pourrait rendre les systèmes actuels comme ChatGPT lents en comparaison.
La nouvelle plateforme, dont la présentation est prévue lors de la conférence annuelle GTC de NVIDIA, est optimisée pour l'inférence IA, l'étape où les modèles entraînés produisent des réponses aux requêtes des utilisateurs. Contrairement aux GPU traditionnels conçus pour gérer à la fois l'entraînement et l'inférence, ce futur processeur se concentre spécifiquement sur la fourniture de réponses plus rapides et plus efficaces.
Si le produit est lancé, il constituera le premier résultat concret de l'accord conclu en décembre qui a permis les fondateurs de Groq , dont l'entreprise est spécialisée dans le matériel de traitement IA à haute vitesse.
Fin 2018, NVIDIA aurait dépensé environ 20 milliards de dollars pour acquérir une licence technologique auprès de la start-up Groq et recruter des cadres clés, dont son PDG. À peu près au même moment, Jensen Huang, PDG de NVIDIA, déclarait aux employés : « Nous prévoyons d’intégrer les processeurs à faible latence de Groq à l’architecture NVIDIA AI Factory, étendant ainsi la plateforme à un éventail encore plus large de charges de travail d’inférence IA et de traitement en temps réel. »
, la nouvelle puce d'inférence devrait permettre de traiter des requêtes d'IA complexes à haute vitesse, et OpenAI ainsi que d'autres clients majeurs devraient l'adopter. Le journal indique également que cette puce pourrait prendre en charge près de 10 % de la charge de travail d'inférence d'OpenAI.
La puce de type Groq utilisera de la SRAM, selon certaines sources
Lors d'une récente conférence téléphonique sur les résultats financiers, le PDG de NVIDIA a laissé entendre que plusieurs nouveaux produits seraient dévoilés lors du prochain événement GTC, souvent décrit comme le « Super Bowl de l'IA ». Il a déclaré : « J'ai d'excellentes idées que j'aimerais partager avec vous au GTC. »
La plupart des analystes s'accordent à dire que la puce de type Groq pourrait faire partie de la gamme. Ils ont également indiqué que sa conception pourrait éclairer la manière dont NVIDIA entend résoudre les problèmes de mémoire liés au calcul inférentiel. Ces plateformes fonctionnent généralement avec de la mémoire à large bande passante (HBM). Cependant, l'approvisionnement en HBM est devenu difficile ces derniers temps.
Selon des sources internes, prévoit d'utiliser de la SRAM dans la puce plutôt que la mémoire vive dynamique (DRAM) associée à la mémoire HBM. La SRAM est plus accessible et permet d'améliorer les performances des charges de travail de raisonnement en intelligence artificielle.
Si cette puce est dévoilée, cela pourrait représenter une avancée majeure pour le fabricant et les modèles d'IA. Cependant, Sid Sheth, fondateur et PDG de d-Matrix, a émis des réserves quant à son développement. Il a souligné que si NVIDIA reste le leader incontesté de l'entraînement des modèles d'IA, l'inférence constitue un tout autre domaine. Il a ajouté : « Les développeurs peuvent se tourner vers des concurrents d'NVIDIA, car l'exécution de modèles d'IA finalisés ne requiert pas le même type de programmation que leur entraînement. »
Néanmoins, d'autres géants de la tech font également progresser le calcul inférentiel. Meta a dévoilé cette semaine quatre processeurs spécialement conçus pour l'inférence, ce qui a incité un investisseur de la Silicon Valley à affirmer que le secteur pourrait entrer dans une phase où NVIDIA ne serait plus dominante.
Cependant, plus récemment, June Paik, directrice générale de FuriosaAI, un concurrent de NVIDIA, commentant l'avantage d'un calcul d'inférence facilement déployable, a averti que la plupart des centres de données ne peuvent pas accueillir les GPU à refroidissement liquide les plus récents.
Malgré ses inquiétudes, les analystes de Bank of America prévoient que les charges de travail d'inférence représenteront 75 % des dépenses des centres de données d'IA d'ici 2030, lorsque le marché atteindra environ 1 200 milliards de dollars, contre environ 50 % l'année dernière. Ben Bajarin, analyste technologique chez Creative Strategies, a également affirmé que les centres de données du futur ne suivront pas un modèle unique, anticipant que les entreprises adopteront des approches différentes en matière de développement de puces et d'infrastructures.
NVIDIA devrait commercialiser les puces Vera Rubin plus tard en 2026
NVIDIA a récemment lancé ses puces d'IA de nouvelle génération, les puces Vera Rubin, anticipant une demande de calcul encore plus forte grâce à l'essor des plateformes d'IA de raisonnement telles que DeepSeek . L'entreprise affirme que ces puces permettront d'entraîner des modèles d'IA plus complexes et de fournir des résultats plus sophistiqués à un plus grand nombre d'utilisateurs.
Selon Huang, Rubin arrivera également sur le marché au cours du second semestre 2026, avec une version haut de gamme « ultra » prévue pour 2027.
Il a également expliqué qu'un seul système Rubin intégrerait 576 GPU individuels sur une seule puce. Actuellement, la puce Blackwell de NVIDIA regroupe 72 GPU dans son système NVL72, ce qui signifie que Rubin disposera d'une mémoire plus performante.

