Cerebras défie Nvidia en lançant un service d'inférence IA

Cerebras lance des services d'inférence IA avec des puces Waffer Scale Engine.
- Cerebras, un fabricant de puces innovant, a lancé son propre service d'inférence IA.
- L'entreprise utilisera ses puces Wafer Scale Engine de dernière génération, qui sont plus rapides que les GPU traditionnels.
- Crebras propose ce service à un prix beaucoup plus abordable de 10 centimes par million de jetons.
Cerebras Systems a annoncé mardi une solution d'inférence IA destinée aux développeurs. Selon l'entreprise, cette solution est 20 fois plus rapide que celles de Nvidia.
Cerebras proposera l'accès à ses puces plus performantes pour l'exécution d'applications d'IA, lesquelles, selon l'entreprise, sont également moins coûteuses que les GPU Nvidia. Ces derniers, références du secteur, sont souvent utilisés par les fournisseurs de services cloud pour exécuter des modèles de langage complexes tels que ChatGPT. L'accès à ces GPU est généralement difficile et onéreux pour de nombreuses PME.
Cerebras affirme que ses nouvelles puces peuvent offrir des performances supérieures à celles des GPU
L'inférence en IA est le processus d'application d'un modèle d'IA déjà entraîné pour obtenir un résultat, comme des réponses de chatbots ou la résolution de diverses tâches. Les services d'inférence constituent l'épine dorsale des applications d'IA actuelles, car elles s'appuient sur eux pour leurs opérations quotidiennes et facilitent l'expérience utilisateur.
Cerebras a déclaré que l'inférence est le segment du secteur de l'IA qui connaît la croissance la plus rapide, représentant 40 % de toutes les charges de travail liées à l'IA dans le cloud computing. Le PDG de Cerebras, Andrew Feldman, a affirmé que les puces surdimensionnées de l'entreprise offrent des performances supérieures à celles d'un GPU. « Les GPU ne peuvent pas atteindre ce niveau », a-t-il déclaré à Reuters. M. Feldman s'exprimait lors d'un entretien.
Il a ajouté,
« Nous le faisons avec la plus grande précision et nous le proposons au prix le plus bas. » Source : Reuters.
Le PDG a déclaré que les services d'inférence IA actuels ne satisfont pas tous les clients. Il a également indiqué à un autre groupe de journalistes à San Francisco que l'entreprise constate un intérêt croissant pour des solutions plus rapides et plus économiques.
Jusqu'à présent, Nvidia a dominé le marché du calcul IA grâce à ses puces de référence et à son environnement de programmation CUDA (Compute Unified Device Architecture). Cela lui a permis de fidéliser les développeurs au sein de son écosystème en leur fournissant une vaste gamme d'outils.
Les puces Cerbras possèdent 7000 fois plus de mémoire que les GPU Nvidia H100
Cerebras affirme que son service d'inférence à haut débit représente un tournant pour l'industrie de l'IA. Les nouvelles puces de l'entreprise, de la taille d'une assiette, sont appelées Wafer Scale Engines. Elles peuvent traiter 1 000 jetons par seconde, une vitesse comparable, selon l'entreprise, à celle de l'arrivée de l'internet haut débit.
Selon l'entreprise, les nouvelles puces offrent des performances différentes selon les modèles d'IA. Pour Llama 3.1 8B, elles peuvent traiter jusqu'à 1 800 jetons par seconde, tandis que pour Llama 3.1 70B, elles peuvent en traiter 450.
Cerebras propose des services d'inférence à 10 centimes par million de jetons, un tarif inférieur à celui des solutions basées sur les GPU. Généralement, les approches alternatives privilégient la performance à la précision, selon l'opinion générale du secteur. Or, d'après les affirmations de Cerebras, les nouvelles puces sont capables de maintenir une précision optimale.
Cerebras a annoncé qu'elle proposera des produits d'inférence IA sous différentes formes. L'entreprise prévoit de lancer un service d'inférence via son cloud et une clé développeur. Elle commercialisera également ces nouvelles puces auprès des clients de centres de données et de ceux qui souhaitent exploiter leurs propres systèmes.
Les nouvelles puces Wafer Scale Engine intègrent leurs propres modules de refroidissement et d'alimentation et font partie intégrante du système de centre de données Cerebras CS-3. Selon différentes sources, le système Cerebras CS-3 constitue l'épine dorsale du service d'inférence de l'entreprise.
Ce système offre une capacité de mémoire 7 000 fois supérieure à celle des GPU Nvidia H100. Il résout également le problème fondamental de la bande passante mémoire, auquel de nombreux fabricants de puces s'efforcent de remédier.
Cerbras travaille également à devenir une société cotée en bourse. À cette fin, elle a déposé ce mois-ci un prospectusdentauprès de la Securities and Exchange Commission (SEC).
Si vous lisez ceci, vous avez déjà une longueur d'avance. Restez-y grâce à notre newsletter.
Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Aamir Sheikh
Aamir est un journaliste spécialisé dans les technologies, fort de près de six ans d'expérience dans les secteurs des cryptomonnaies et des technologies. Diplômé de l'université MAJ avec un MBA en finance et marketing, il travaille actuellement pour Cryptopolitan, où il couvre l'actualité des marchés des cryptomonnaies et propose des prévisions de prix.
- Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
- Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
- Stratégies d'investissement peu connues utilisées par les professionnels
- Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)















