Amazon sfrutta i chip su scala wafer di Cerebras per potenziare i modelli di intelligenza artificiale su AWS

-
Amazon Web Services implementerà i chip Cerebras nei suoi data center nell'ambito di un accordo pluriennale per l'inferenza basata sull'intelligenza artificiale.
-
La configurazione combina server Amazon Trainium, sistemi Cerebras CS-3 e rete EFA su Amazon Bedrock.
-
Amazon utilizzerà Trainium per il precompilazione e Cerebras per la decodifica, al fine di velocizzare le risposte dell'intelligenza artificiale.
Amazon Web Services ha annunciato venerdì che installerà processori di Cerebras nei suoi data center nell'ambito di una partnership pluriennale incentrata sull'inferenza basata sull'intelligenza artificiale.
L'accordo offre ad Amazon un nuovo modo per velocizzare i modelli di intelligenza artificiale nel rispondere ai prompt, scrivere codice e gestire le richieste degli utenti in tempo reale. AWS ha dichiarato che utilizzerà la tecnologia di Cerebras, incluso il Wafer-Scale Engine, per le attività di inferenza.
Le aziende non hanno reso noti i termini finanziari dell'accordo. L'installazione è prevista su Amazon Bedrock all'interno dei data center AWS, collocando la partnership proprio all'interno di uno dei principali prodotti di intelligenza artificiale di Amazon.
AWS ha dichiarato che il sistema combinerà server basati su Amazon Trainium, sistemi Cerebras CS-3 e la rete Amazon Elastic Fabric Adapter.
Nel corso dell'anno, AWS prevede inoltre di offrire modelli linguistici open source di alto livello e Amazon Nova su hardware Cerebras. David Brown,dent dei servizi di calcolo e apprendimento automatico di AWS, ha affermato che la velocità rappresenta ancora un problema importante nell'inferenza dell'IA, soprattutto per l'assistenza alla programmazione in tempo reale e le app interattive.
David ha affermato: "L'inferenza è il campo in cui l'IA offre un valore reale ai clienti, ma la velocità rimane un collo di bottiglia critico per carichi di lavoro impegnativi come l'assistenza alla programmazione in tempo reale e le applicazioni interattive."
Amazon suddivide le fasi di precaricamento e decodifica su chip separati
AWS ha affermato che il design utilizza un metodo chiamato disaggregazione dell'inferenza. Ciò significa suddividere l'inferenza dell'IA in due parti. La prima parte è l'elaborazione preliminare, detta anche precompilazione. La seconda parte è la generazione dell'output, detta anche decodifica.
AWS ha affermato che i due processi si comportano in modo molto diverso. Il pre-riempimento è parallelo, richiede un'elevata potenza di calcolo e una larghezza di banda di memoria moderata. La decodifica è seriale, richiede un'elaborazione minore ed è molto piùdent dalla larghezza di banda di memoria. In questi casi, la decodifica richiede anche la maggior parte del tempo perché ogni token di output deve essere prodotto singolarmente.
Ecco perché AWS assegna hardware diverso a ciascuna fase. Trainium si occuperà del precaricamento, mentre Cerebras CS-3 si occuperà della decodifica.
AWS ha affermato che la rete EFA a bassa latenza e ad alta larghezza di banda collegherà entrambe le parti, consentendo al sistema di funzionare come un unico servizio, mentre ciascun processore si concentra su un'attività separata.
David ha affermato: "Ciò che stiamo realizzando con Cerebras risolve questo problema: suddividendo il carico di lavoro di inferenza tra Trainium e CS-3 e collegandoli con l'adattatore Elastic Fabric di Amazon, ogni sistema fa ciò che sa fare meglio. Il risultato sarà un'inferenza di un ordine di grandezza più veloce e con prestazioni superiori rispetto a quanto disponibile oggi."
AWS ha inoltre affermato che il servizio verrà eseguito sul sistema AWS Nitro, che costituisce il livello base della sua infrastruttura cloud.
Ciò significa che i sistemi Cerebras CS-3 e le istanze basate su Trainium dovrebbero operare con la stessa sicurezza, isolamento e coerenza già utilizzate dai clienti AWS.
Amazon spinge con più forza su Trainium mentre Nvidia si trova ad affrontare un'altra minaccia
L' annuncio offre inoltre ad Amazon un'ulteriore opportunità per promuovere Trainium in concorrenza con i chip di Nvidia, AMD e altre grandi aziende produttrici di semiconduttori. AWS descrive Trainium come il suo chip AI proprietario, progettato per garantire prestazioni scalabili ed efficienza in termini di costi nelle fasi di addestramento e inferenza.
AWS ha dichiarato che due importanti laboratori di intelligenza artificiale hanno già aderito al servizio. Anthropic ha nominato AWS il suo principale partner per la formazione e utilizza Trainium per addestrare e implementare i modelli. OpenAI utilizzerà 2 gigawatt di capacità di Trainium attraverso l'infrastruttura AWS per l'ambiente di runtime con stato, i modelli di frontiera e altri carichi di lavoro avanzati.
AWS ha aggiunto che Trainium3 ha registrato unatronadozione sin dal suo recente rilascio, con clienti di diversi settori che hanno impegnato una capacità significativa.
Cerebras si occupa della fase di decodifica. AWS ha affermato che CS-3 è dedicato all'accelerazione della decodifica, il che gli consente di disporre di maggiore spazio per token di output veloci. Cerebras sostiene che CS-3 sia il sistema di inferenza AI più veloce al mondo e offra una larghezza di banda di memoria migliaia di volte superiore a quella della GPU più veloce.
L'azienda ha affermato che i modelli di ragionamento ora costituiscono una quota maggiore del lavoro di inferenza e generano più token per richiesta man mano che elaborano i problemi. Cerebras ha anche dichiarato che OpenAI, Cognition, Mistral e altri utilizzano i suoi sistemi per carichi di lavoro impegnativi, in particolare la codifica agentica.
Andrew Feldman, fondatore e amministratore delegato di Cerebras Systems, ha dichiarato: "La partnership con AWS per la creazione di una soluzione di inferenza disaggregata offrirà l'inferenza più veloce a una clientela globale"
Andrew ha aggiunto: "Ogni azienda al mondo potrà beneficiare di un'inferenza estremamente veloce all'interno del proprio ambiente AWS esistente."
L'accordo aumenta la pressione su Nvidia, che a dicembre ha firmato un accordo di licenza da 20 miliardi di dollari con Groq e prevede di presentare la prossima settimana un nuovo sistema di inferenza che utilizza la tecnologia Groq.
Se stai leggendo questo, sei già un passo avanti. Rimani al passo con i tempi iscrivendoti alla nostra newsletter.
CORSO
- Quali criptovalute possono farti guadagnare
- Come rafforzare la sicurezza del tuo portafoglio digitale (e quali sono quelli davvero validi)
- Strategie di investimento poco conosciute utilizzate dai professionisti
- Come iniziare a investire in criptovalute (quali piattaforme di scambio utilizzare, le migliori criptovalute da acquistare, ecc.)















