DERNIÈRES NOUVELLES

en direct Bitcoin franchit brusquement la barre des 82 000 dollars

il y a 5 heures Mises à jour en direct
La Fondation Jito et Solana Company (HSDT) s'associent pour développer le staking institutionnel dans la région Asie-Pacifique

Il y a 8 minutes, Solana
Hut 8 décroche un contrat de 9,8 milliards de dollars pour un centre de données, tandis que les mineurs Bitcoin accélèrent leur transition vers l'IA

d'il y a 1 heure Actualités
Jusqu'où peut aller la hausse du ZEC ? Réponse d'Arthur Hayes

d'il y a 2 heures Actualités

SÉLECTIONNÉ POUR VOUS

HEBDOMADAIRE

RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

Technologie

Amazon utilise les puces Cerebras à l'échelle de la plaquette pour accélérer ses modèles d'IA sur AWS

Par

Jai Hamid

3 minutes de lecture - 14 mars 2026

Amazon va mettre la pression sur OpenAI avec son prochain modèle d'IA de raisonnement

Amazon Web Services déploiera des puces Cerebras dans ses centres de données dans le cadre d'un accord pluriannuel d'inférence IA.
Cette configuration combine des serveurs Amazon Trainium, des systèmes Cerebras CS-3 et un réseau EFA sur Amazon Bedrock.
Amazon utilisera Trainium pour le préremplissage et Cerebras pour le décodage afin d'accélérer les réponses de l'IA.

Amazon Web Services a annoncé vendredi qu'elle allait installer des processeurs de Cerebras dans ses centres de données dans le cadre d'un partenariat pluriannuel axé sur l'inférence par IA.

Cet accord offre à Amazon un nouveau moyen d'accélérer la manière dont ses modèles d'IA répondent aux requêtes, génèrent du code et traitent les requêtes des utilisateurs en temps réel. AWS a indiqué qu'elle utilisera la technologie Cerebras, notamment le Wafer-Scale Engine, pour les tâches d'inférence.

Les entreprises n'ont pas divulgué les détails financiers. L'infrastructure prévue est Amazon Bedrock, hébergée dans les centres de données AWS, ce qui place le partenariat au cœur même de l'un des principaux produits d'IA d'Amazon.

AWS a indiqué que le système combinera des serveurs Amazon Trainium, des systèmes Cerebras CS-3 et le réseau Amazon Elastic Fabric Adapter.

Plus tard cette année, AWS prévoit également de proposer des modèles de langage open source de grande envergure et Amazon Nova sur l'infrastructure Cerebras. David Brown, vice-dent des services de calcul et d'apprentissage automatique chez AWS, a déclaré que la vitesse reste un problème majeur dans l'inférence IA, notamment pour l'aide au codage en temps réel et les applications interactives.

David a déclaré : « L'inférence est le domaine où l'IA apporte une réelle valeur ajoutée aux clients, mais la vitesse reste un goulot d'étranglement critique pour les charges de travail exigeantes telles que l'assistance au codage en temps réel et les applications interactives. »

Amazon répartit le préremplissage et le décodage sur des puces distinctes

AWS a indiqué que la conception repose sur une méthode appelée désagrégation de l'inférence. Cela consiste à diviser l'inférence de l'IA en deux parties. La première partie est le traitement immédiat, également appelé préremplissage. La seconde partie est la génération de la sortie, également appelée décodage.

AWS a indiqué que les deux tâches se comportent de manière très différente. La pré-remplissage est parallèle, gourmande en ressources de calcul et nécessite une bande passante mémoire modérée. Le décodage est séquentiel, moins gourmand en ressources de calcul et beaucoup plusdent de la bande passante mémoire. Le décodage est également la tâche la plus longue dans ces cas, car chaque jeton de sortie doit être produit individuellement.

C’est pourquoi AWS attribue du matériel différent à chaque étape. Trainium gérera le préremplissage et Cerebras CS-3 le décodage.

AWS a déclaré que le réseau EFA à faible latence et à large bande passante connectera les deux côtés afin que le système puisse fonctionner comme un seul service tandis que chaque processeur se concentre sur une tâche distincte.

David a déclaré : « Ce que nous développons avec Cerebras résout ce problème : en répartissant la charge de travail d’inférence entre Trainium et CS-3, et en les connectant grâce à l’adaptateur Elastic Fabric d’Amazon, chaque système exploite ses points forts. Il en résultera une inférence dix fois plus rapide et plus performante que les solutions actuelles. »

AWS a également indiqué que le service fonctionnera sur le système AWS Nitro, qui constitue la couche de base de son infrastructure cloud.

Cela signifie que les systèmes Cerebras CS-3 et les instances utilisant Trainium devraient fonctionner avec le même niveau de sécurité, d'isolation et de cohérence que celui déjà utilisé par les clients AWS.

Amazon intensifie la promotion de Trainium tandis que Nvidia fait face à une nouvelle menace

Cette annonce offre également à Amazon une nouvelle opportunité de concurrencer les puces Trainium de Nvidia, AMD et autres grands fabricants de semi-conducteurs. AWS décrit Trainium comme sa puce d'IA interne, conçue pour offrir des performances évolutives et une rentabilité optimale pour l'entraînement et l'inférence.

AWS a annoncé que deux grands laboratoires d'IA se sont déjà engagés. Anthropic a désigné AWS comme son principal partenaire de formation et utilise Trainium pour entraîner et déployer ses modèles. OpenAI consommera 2 gigawatts de capacité Trainium via l'infrastructure AWS pour son environnement d'exécution avec état, ses modèles de pointe et d'autres charges de travail avancées.

AWS a ajouté que Trainium3 a connu unetronadoption depuis sa récente sortie, avec des clients de tous les secteurs s'engageant à utiliser d'importantes capacités.

Cerebras gère le décodage. AWS précise que CS-3 est dédié à l'accélération du décodage, ce qui lui permet de traiter plus rapidement les jetons de sortie. Cerebras affirme que CS-3 est le système d'inférence IA le plus rapide au monde et offre une bande passante mémoire des milliers de fois supérieure à celle du GPU le plus performant.

L'entreprise a indiqué que les modèles de raisonnement représentent désormais une part plus importante du travail d'inférence et génèrent davantage de jetons par requête lors de la résolution des problèmes. Cerebras a également précisé qu'OpenAI, Cognition, Mistral et d'autres utilisent ses systèmes pour des charges de travail exigeantes, notamment la programmation agentielle.

Andrew Feldman, fondateur et directeur général de Cerebras Systems, a déclaré : « Le partenariat avec AWS pour construire une solution d'inférence désagrégée permettra d'offrir l'inférence la plus rapide à une clientèle mondiale. »

Andrew a ajouté : « Toutes les entreprises du monde entier pourront bénéficier d'une inférence ultra-rapide au sein de leur environnement AWS existant. »

Cet accord accroît la pression sur Nvidia, qui a signé en décembre un accord de licence de 20 milliards de dollars avec Groq et prévoit de dévoiler la semaine prochaine un nouveau système d'inférence utilisant la technologie Groq.

Si vous lisez ceci, vous avez déjà une longueur d'avance. Restez-y grâce à notre newsletter.

Amazon AWS Cerebras

Partagez cet article

Jai Hamid

Jai Hamid est une rédactrice professionnelle forte de six ans d'expérience au sein de différentes entreprises médiatiques spécialisées dans la blockchain, telles que AMB Crypto, Coin Edition et CryptoTale. Titulaire d'une licence en gestion de la santé, elle est intervenue sur l'une des principales chaînes de télévision africaines pour apporter son expertise en cryptomonnaies.

TABLE DES MATIÈRES

1. Amazon répartit le préremplissage et le décodage sur des puces distinctes

2. Amazon intensifie la promotion de Trainium tandis que Nvidia fait face à une nouvelle menace

Partagez cet article

PLUS D'ACTUALITÉS

AFFICHER TOUT

5 applications ingénieuses de ChatGPT et ce que vous devriez en faire

Il y a 3 ans, technicien John Palmer,

93 % des dirigeants d'entreprise privilégient les solutions basées sur l'IA pour la gestion de la durabilité de leur marque (Reuters)

Il y a 3 ans, technicien John Palmer,

Voici comment Macron soutient l'écosystème d'IA dynamique et productif de la France

Il y a 3 ans, Tech Glory Kaburu

Bloomberg estime que le marché de l'IA générative atteindra 1 300 milliards de dollars d'ici 2032

Il y a 3 ans, Tech Aamir Sheikh

Base est-il le réseau Ethereum de couche 2 lancé par Coinbase ?

21 octobre 2025 Apprendre la crypto : Guides pour débutants
Dogecoin contre Bitcoin: Principales différences techniques

20 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce que la TVL (Total Value Locked) en cryptomonnaie ?

14 octobre 2025 Apprendre la crypto : Guides pour débutants
Comment lire un livre blanc sur les cryptomonnaies ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Ripple vs. XRP vs. XRP Ledger : quelle est la différence ?

13 octobre 2025 Apprendre la crypto : Guides pour débutants
Qu'est-ce qu'un portefeuille multisignature dans le monde des cryptomonnaies ?

10 octobre 2025 Apprendre la crypto : Guides pour débutants

COURS ACCÉLÉRÉ CRYPTOMONNAIES
LES

Quelles cryptomonnaies peuvent vous faire gagner de l'argent ?
Comment renforcer la sécurité de votre portefeuille (et lesquels valent vraiment la peine d'être utilisés)
Stratégies d'investissement peu connues utilisées par les professionnels
Comment débuter en investissement crypto (quelles plateformes d'échange utiliser, quelles cryptomonnaies acheter, etc.)