DERNIÈRES NOUVELLES
SÉLECTIONNÉ POUR VOUS
HEBDOMADAIRE
RESTEZ AU SOMMET

Les meilleures analyses crypto directement dans votre boîte mail.

Amazon utilise les puces Cerebras à l'échelle de la plaquette pour accélérer ses modèles d'IA sur AWS

ParJai HamidJai Hamid
3 minutes de lecture -
Amazon va mettre la pression sur OpenAI avec son prochain modèle d'IA de raisonnement
  • Amazon Web Services déploiera des puces Cerebras dans ses centres de données dans le cadre d'un accord pluriannuel d'inférence IA.

  • Cette configuration combine des serveurs Amazon Trainium, des systèmes Cerebras CS-3 et un réseau EFA sur Amazon Bedrock.

  • Amazon utilisera Trainium pour le préremplissage et Cerebras pour le décodage afin d'accélérer les réponses de l'IA.

Amazon Web Services a annoncé vendredi qu'elle allait installer des processeurs de Cerebras dans ses centres de données dans le cadre d'un partenariat pluriannuel axé sur l'inférence par IA.

Cet accord offre à Amazon un nouveau moyen d'accélérer la manière dont ses modèles d'IA répondent aux requêtes, génèrent du code et traitent les requêtes des utilisateurs en temps réel. AWS a indiqué qu'elle utilisera la technologie Cerebras, notamment le Wafer-Scale Engine, pour les tâches d'inférence.

Les entreprises n'ont pas divulgué les détails financiers. L'infrastructure prévue est Amazon Bedrock, hébergée dans les centres de données AWS, ce qui place le partenariat au cœur même de l'un des principaux produits d'IA d'Amazon.

AWS a indiqué que le système combinera des serveurs Amazon Trainium, des systèmes Cerebras CS-3 et le réseau Amazon Elastic Fabric Adapter.

Plus tard cette année, AWS prévoit également de proposer des modèles de langage open source de grande envergure et Amazon Nova sur l'infrastructure Cerebras. David Brown, vice-dent des services de calcul et d'apprentissage automatique chez AWS, a déclaré que la vitesse reste un problème majeur dans l'inférence IA, notamment pour l'aide au codage en temps réel et les applications interactives.

David a déclaré : « L'inférence est le domaine où l'IA apporte une réelle valeur ajoutée aux clients, mais la vitesse reste un goulot d'étranglement critique pour les charges de travail exigeantes telles que l'assistance au codage en temps réel et les applications interactives. »

Amazon répartit le préremplissage et le décodage sur des puces distinctes

AWS a indiqué que la conception repose sur une méthode appelée désagrégation de l'inférence. Cela consiste à diviser l'inférence de l'IA en deux parties. La première partie est le traitement immédiat, également appelé préremplissage. La seconde partie est la génération de la sortie, également appelée décodage.

AWS a indiqué que les deux tâches se comportent de manière très différente. La pré-remplissage est parallèle, gourmande en ressources de calcul et nécessite une bande passante mémoire modérée. Le décodage est séquentiel, moins gourmand en ressources de calcul et beaucoup plusdent de la bande passante mémoire. Le décodage est également la tâche la plus longue dans ces cas, car chaque jeton de sortie doit être produit individuellement.

C’est pourquoi AWS attribue du matériel différent à chaque étape. Trainium gérera le préremplissage et Cerebras CS-3 le décodage.

AWS a déclaré que le réseau EFA à faible latence et à large bande passante connectera les deux côtés afin que le système puisse fonctionner comme un seul service tandis que chaque processeur se concentre sur une tâche distincte.

David a déclaré : « Ce que nous développons avec Cerebras résout ce problème : en répartissant la charge de travail d’inférence entre Trainium et CS-3, et en les connectant grâce à l’adaptateur Elastic Fabric d’Amazon, chaque système exploite ses points forts. Il en résultera une inférence dix fois plus rapide et plus performante que les solutions actuelles. »

AWS a également indiqué que le service fonctionnera sur le système AWS Nitro, qui constitue la couche de base de son infrastructure cloud.

Cela signifie que les systèmes Cerebras CS-3 et les instances utilisant Trainium devraient fonctionner avec le même niveau de sécurité, d'isolation et de cohérence que celui déjà utilisé par les clients AWS.

Amazon intensifie la promotion de Trainium tandis que Nvidia fait face à une nouvelle menace

Cette annonce offre également à Amazon une nouvelle opportunité de concurrencer les puces Trainium de Nvidia, AMD et autres grands fabricants de semi-conducteurs. AWS décrit Trainium comme sa puce d'IA interne, conçue pour offrir des performances évolutives et une rentabilité optimale pour l'entraînement et l'inférence.

AWS a annoncé que deux grands laboratoires d'IA se sont déjà engagés. Anthropic a désigné AWS comme son principal partenaire de formation et utilise Trainium pour entraîner et déployer ses modèles. OpenAI consommera 2 gigawatts de capacité Trainium via l'infrastructure AWS pour son environnement d'exécution avec état, ses modèles de pointe et d'autres charges de travail avancées.

AWS a ajouté que Trainium3 a connu unetronadoption depuis sa récente sortie, avec des clients de tous les secteurs s'engageant à utiliser d'importantes capacités.

Cerebras gère le décodage. AWS précise que CS-3 est dédié à l'accélération du décodage, ce qui lui permet de traiter plus rapidement les jetons de sortie. Cerebras affirme que CS-3 est le système d'inférence IA le plus rapide au monde et offre une bande passante mémoire des milliers de fois supérieure à celle du GPU le plus performant.

L'entreprise a indiqué que les modèles de raisonnement représentent désormais une part plus importante du travail d'inférence et génèrent davantage de jetons par requête lors de la résolution des problèmes. Cerebras a également précisé qu'OpenAI, Cognition, Mistral et d'autres utilisent ses systèmes pour des charges de travail exigeantes, notamment la programmation agentielle.

Andrew Feldman, fondateur et directeur général de Cerebras Systems, a déclaré : « Le partenariat avec AWS pour construire une solution d'inférence désagrégée permettra d'offrir l'inférence la plus rapide à une clientèle mondiale. »

Andrew a ajouté : « Toutes les entreprises du monde entier pourront bénéficier d'une inférence ultra-rapide au sein de leur environnement AWS existant. »

Cet accord accroît la pression sur Nvidia, qui a signé en décembre un accord de licence de 20 milliards de dollars avec Groq et prévoit de dévoiler la semaine prochaine un nouveau système d'inférence utilisant la technologie Groq.

Si vous lisez ceci, vous avez déjà une longueur d'avance. Restez-y grâce à notre newsletter.

Partagez cet article
PLUS D'ACTUALITÉS
COURS ACCÉLÉRÉ CRYPTOMONNAIES
LES