-
Amazon Web Servicesは、複数年にわたるAI推論に関する契約に基づき、Cerebras社のチップを自社のデータセンターに導入する予定だ。.
-
この構成は、Amazon Trainiumサーバー、Cerebras CS-3システム、およびAmazon Bedrock上のEFAネットワークを組み合わせたものです。.
-
Amazonは、AIの応答速度を向上させるため、事前入力にはTrainiumを、デコードにはCerebrasを使用する予定だ。.
アマゾンウェブサービスは金曜日、AI推論に重点を置いた複数年にわたるパートナーシップに基づき、Cerebras社のプロセッサを自社のデータセンターに導入すると発表した。.
この契約により、AmazonはAIモデルがプロンプトに応答したり、コードを記述したり、ユーザーからのリアルタイムのリクエストを処理したりする速度を向上させる新たな手段を得ることになる。AWSは、推論タスクにCerebrasの技術(Wafer-Scale Engineを含む)を使用すると発表した。.
両社は契約条件を明らかにしていない。このシステムはAWSデータセンター内のAmazon Bedrockに設置される予定で、これにより両社の提携はAmazonの主要AI製品の一つに組み込まれることになる。.
AWSによると、このシステムはAmazon Trainium搭載サーバー、Cerebras CS-3システム、およびAmazonのElastic Fabric Adapterネットワークを組み合わせたものになるという。.
AWSは今年後半に、主要なオープンソースの大規模言語モデルとAmazon NovaをCerebrasハードウェア上で提供する予定です。AWSのコンピューティングおよび機械学習サービス担当副dent あるデビッド・ブラウン氏は、特にリアルタイムのコーディング支援やインタラクティブなアプリケーションにおいては、AI推論の速度が依然として大きな課題であると述べています。.
デイビッド氏は、「推論こそがAIが顧客に真の価値を提供する分野だが、リアルタイムのコーディング支援やインタラクティブなアプリケーションといった要求の厳しいワークロードにおいては、速度が依然として重大なボトルネックとなっている」と述べた。
Amazonはプリフィルとデコードを別々のチップに分割
AWSによると、この設計では推論分解と呼ばれる手法が用いられている。これは、AI推論を2つの部分に分割することを意味する。1つ目はプロンプト処理(プリフィルとも呼ばれる)で、2つ目は出力生成(デコードとも呼ばれる)である。.
AWSによると、この2つのジョブは動作が大きく異なるとのことです。プリフィルは並列処理で計算負荷が高く、中程度のメモリ帯域dent はるかに高くなります。また、出力トークンを1つずつ生成する必要があるため、これらのケースではデコードにほとんどの時間がかかります。.
そのため、AWSは各ステージに異なるハードウェアを割り当てています。Trainiumがプリフィル処理を担当し、Cerebras CS-3がデコード処理を担当します。.
AWSによると、低遅延・高帯域幅のEFAネットワークにより両側が接続され、各プロセッサが個別のタスクに集中しながら、システム全体が1つのサービスとして機能できるようになるという。.
デイビッド氏は、「Cerebrasで構築しているシステムは、この問題を解決します。推論ワークロードをTrainiumとCS-3に分割し、AmazonのElastic Fabric Adapterで接続することで、各システムがそれぞれの得意分野に集中できるようになります。その結果、現在利用可能なものよりも桁違いに高速で高性能な推論が可能になります。」と述べています。
AWSはまた、このサービスは同社のクラウドインフラストラクチャの基盤となるAWS Nitroシステム上で稼働すると述べた。.
つまり、Cerebras CS-3システムとTrainiumを搭載したインスタンスは、AWSの顧客が既に利用しているのと同等のセキュリティ、分離性、一貫性を備えて動作することが期待されるということです。.
AmazonがTrainiumへの圧力を強める一方、Nvidiaは新たな脅威に直面する。
今回の 発表は 、アマゾンにとって、Nvidia、AMD、その他の大手チップメーカーのチップに対抗するTrainiumを売り込む新たな機会となる。AWSはTrainiumを、トレーニングと推論の両方において拡張性の高いパフォーマンスとコスト効率を実現するために開発された自社開発のAIチップだと説明している。
AWSによると、主要なAI研究所2社が既にTrainiumの導入を決定している。AnthropicはAWSを主要なトレーニングパートナーに指定し、Trainiumを使用してモデルのトレーニングとデプロイを行っている。OpenAIは、ステートフルランタイム環境、最先端モデル、その他の高度なワークロードのために、AWSインフラストラクチャを通じてTrainiumの容量2ギガワットを使用する予定だ。.
AWSは、Trainium3は最近のリリース以来、tronに普及しており、様々な業界の顧客が大規模なキャパシティを投入していると付け加えた。.
Cerebrasは、このシステムのデコード処理を担当しています。AWSによると、CS-3はデコード高速化に特化しており、高速な出力トークンに対応できる余裕があるとのことです。Cerebrasは、CS-3は世界最速のAI推論システムであり、最速のGPUよりも数千倍も広いメモリ帯域幅を提供すると述べています。.
同社によると、推論モデルは現在、推論処理においてより大きな割合を占めるようになり、問題解決の過程でリクエストごとに生成されるトークン数も増加しているという。また、Cerebrasは、OpenAI、Cognition、Mistralなどが、特にエージェントコーディングといった負荷の高いワークロードに同社のシステムを使用していると述べている。.
Cerebras Systemsの創業者兼最高経営責任者であるアンドリュー・フェルドマン氏は、「AWSと提携して分散型推論ソリューションを構築することで、世界中の顧客に最速の推論を提供できるようになります」と述べた。
アンドリュー氏はさらに、「世界中のあらゆる企業が、既存のAWS環境内で驚異的な高速推論の恩恵を受けることができるようになるでしょう」と付け加えた。
この契約は、昨年12月にGroqと200億ドルのライセンス契約を締結し、来週にはGroqの技術を用いた新しい推論システムを発表する予定のNvidiaにとって、さらなるプレッシャーとなるだろう。.
この記事を読んでいるあなたは、既に一歩先を行っています。 ニュースレターを購読して、その優位性を維持しましょう。
速習コース
- どの仮想通貨でお金が稼げるか
- ウォレットを使ってセキュリティを強化する方法(そして実際に使う価値のあるウォレットはどれか)
- プロが使う、あまり知られていない投資戦略
- 仮想通貨への投資を始める方法(どの取引所を使うべきか、購入すべき最適な仮想通貨など)
















