Les nouvelles puces Blackwell de Nvidia révolutionnent la vitesse d'entraînement des systèmes d'intelligence artificielle.
Dans le dernier ensemble de résultats de tests comparatifs publiés mercredi par MLCommons, un groupe à but non lucratif qui trac et compare les capacités des puces d'IA , l'architecture Blackwell programmée par Nvidia a établi des records.
Lors de tests effectués avec le modèle open-source Llama 3.1 405B de Meta, l'un de ses modèles d'IA les plus vastes et complexes, l'entraînement a été achevé en seulement 27 minutes grâce aux puces Blackwell. Ce résultat a été obtenu avec seulement 2 496 GPU Blackwell, soit dix fois moins qu'avec les précédentes puces Hopper de Nvidia.
À l'inverse, les architectures précédentes utilisaient plus de trois fois plus de GPU Hopper pour des performances équivalentes. Au niveau de la puce, Blackwell était plus de deux fois plus rapide, ce qui représentait un gain considérable en termes d'efficacité de convergence. Une telle amélioration des performances pourrait se traduire par des économies de temps et de coûts importantes pour les organisations qui entraînent des modèles à mille milliards de paramètres.
Ces résultats sont considérés comme les premiers MLCommons pour l'entraînement de modèles à ces échelles extrêmes et fournissent une mesure concrète de la capacité des puces à gérer les charges de travail d'IA les plus exigeantes.
CoreWeave et Nvidia optimisent la mise à l'échelle de l'IA
Ces résultats ont non seulement constitué une victoire pour Nvidia, mais ils ont également mis en lumière le travail de CoreWeave, une entreprise d'infrastructure cloud partenaire de ces tests. Lors d'une conférence de presse, Chetan Kapoor, directeur des produits chez CoreWeave, a souligné une tendance générale qui s'impose de plus en plus dans le secteur : l'abandon des grands blocs homogènes de dizaines de milliers de GPU.
Plutôt que de construire un système informatique unique, massif et monolithique, les entreprises se tournent désormais vers des sous-ensembles plus petits et interconnectés, capables de gérer plus efficacement et avec une meilleure évolutivité l'entraînement de modèles massifs.
Kapoor a déclaré qu'avec une telle technique, les développeurs peuvent continuer à augmenter la taille des modèles ou à réduire le temps nécessaire à l'entraînement de modèles extrêmement volumineux comportant des milliards de paramètres.
Le passage à un déploiement modulaire du matériel est également nécessaire car la taille et la complexité des modèles d'IA ne cessent de croître.
Blackwell place Nvidia en tête de l'entraînement des modèles d'IA
Bien que l'attention se soit récemment portée sur l'inférence en IA, où des modèles comme ChatGPT1 répondent aux questions des utilisateurs en temps réel, l'entraînement reste l'élément central du développement de l'IA.
La phase d'apprentissage confère à ces modèles leur intelligence, leur permettant de comprendre le langage, de s'attaquer à certains de nos problèmes les plus complexes et même de produire une prose d'une qualité proche de celle de l'humain. Les calculs sont extrêmement exigeants et nécessitent le fonctionnement de milliers de puces hautes performances pendant de longues périodes, généralement des jours, voire des semaines ou des mois.
L'architecture Blackwell de Nvidia a changé la donne . En réduisant considérablement la taille des puces et le temps d'entraînement des modèles d'IA gigantesques, les puces Blackwell confèrent à Nvidia un avantage certain sur un marché où la vitesse et l'efficacité sont primordiales.
Les modèles d'entraînement tels que Llama 3.1 405B de Meta, qui compte des billions de paramètres, devaient auparavant être exécutés sur d'énormes clusters de GPU et constituaient un processus coûteux et énergivore.
De tels gains de performance constituent un atout considérable à l'heure où la demande de modèles d'IA toujours plus vastes et plus puissants explose dans de nombreux secteurs, de la santé et la finance à l'éducation et aux véhicules autonomes.
Cela envoie également un message clair aux concurrents de Nvidia. Désormais, les fabricants de puces comme AMD et Intel, qui travaillent sur leurs puces dédiées à l'IA, sont soumis à une pression accrue pour maintenir un rythme similaire.
AMD a soumis sa carte au test de performance MLCommons, mais n'a pas fourni de résultats pour un modèle aussi imposant que Llamas 3.1 405B. Nvidia était le seul constructeur à avoir obtenu des résultats élevés au test, prouvant ainsi la supériorité de son matériel et sa capacité à relever les défis les plus exigeants.

