最新ニュース
あなたへのおすすめ
週刊
トップの座を維持する

最高の仮想通貨情報をあなたの受信トレイに直接お届けします。.

中国のDeepSeekがGPT-5に匹敵する次世代AIモデルを発表。しかし、果たして十分な性能なのだろうか?

によるジャイ・ハミドジャイ・ハミド
読了時間3分
中国のDeepSeekが、GPT-5に匹敵する次世代AIモデルを発表しました。しかし、本当に十分な性能なのでしょうか?
  • DeepSeekは月曜日、速度、コスト削減、大量データの処理に重点を置いた新しいV3.2-Expモデルを発売した。.
  • このモデルでは、無関係なデータをスキップして効率を向上させ、コストを半分に削減する DeepSeek Sparse Attention が導入されています。.
  • 専門家は、注意力が散漫になると、メリットがあるにもかかわらず、重要な情報が失われ、信頼性が低下する可能性があると警告しています。.

中国のテクノロジーの天才DeepSeekは、AI分野におけるアメリカの優位性に挑戦する試みの一環として、新たな実験モデル「V3.2-Exp」をリリースした。このリリースは月曜日に行われ、人気AIフォーラム「Hugging Face」への投稿を通じて初めて公開された。.

DeepSeek は、この最新バージョンは現在のモデルである V3.1-Terminus をtronに構築されているが、速度、コスト、メモリ処理をより重視していると主張しています。.

ハギングフェイスの中国コミュニティリーダー、アディナ・ヤケフ氏によると、このモデルにはディープシーク・スパース・アテンション(DSA)と呼ばれる機能が搭載されており、これにより「AIが長い文書や会話をより適切に処理できるようになる」と同時に、運用コストも半分に削減できるという。.

記憶のますが、約1年前、DeepSeekは予告なしに最初のモデルであるR1をリリースし、業界に大きな衝撃を与えました。このモデルは、より少ないチップと大幅に少ない計算能力で大規模な言語モデルをトレーニングできることを示しました。中国のチームがそのような制約の中でそれを成し遂げるとは、誰も予想していませんでした。V3.2-Expでも目標は変わっていません。より少ないハードウェアで、より高いパフォーマンスを実現することです。

DeepSeek Sparse Attentionを追加し、AIの実行コストを削減します

このモデルの大きな特徴はDSAです。DSAは、AIがどの情報を見るかを選択する方法を変えます。すべてをスキャンするのではなく、DeepSeekはタスクに役立つと思われる情報だけに焦点を当てるようにモデルを訓練します。アディナ氏は、 説明しました

無関係なデータをスキップすることで、モデルはより高速に動作し、消費電力も削減されます。彼女は、このモデルはオープンソースのコラボレーションを念頭に置いて設計されたと述べました。.

フューチュラム・グループでAI研究を率いるニック・ペイシェンス氏は、CNBCに対し、このモデルは、高価なモデルを使う余裕のない開発者にも強力なAIツールを提供できる可能性を秘めていると語った。「このモデルは、パフォーマンスを著しく低下させることなく、より高速かつ費用対効果の高い利用を可能にするはずです」とニック氏は述べた。しかし、だからといってリスクがないわけではない。

方法は DeepSeekが 、航空会社が飛行ルートを選択する方法に似ています。ある場所から別の場所へ行く方法は何百通りもあるかもしれませんが、実際に意味のあるルートはごくわずかです。このモデルはノイズを取り除き、重要なもの、あるいは少なくとも重要だと 判断した

しかし、これには懸念も伴う。BlankPage Capitalの共同創業者であるエカテリーナ・アルマスケ氏は、それを簡潔に説明した。「つまり、重要でないと思うものを排除するということです」。しかし、問題は、このモデルが 正しい ものを排除しているという保証がないことだ、と彼女は述べた。

Dataiku、Darktrace、Graphcoreといった企業を支援してきたエカテリーナ氏は、手抜きをすると後々問題が生じる可能性があると警告した。「それら(スパース・アテンション・モデル)は多くのニュアンスを失っています」と彼女は述べた。「そして真の問題は、重要でないデータを除外する適切なメカニズムがあったのか、それとも本当に重要なデータを除外するメカニズムがあったのか、ということです。もしそうであれば、結果の関連性ははるかに低くなるでしょう。」

中国製チップに接続し、オープンコードを公開

こうした懸念にもかかわらず、DeepSeekはV3.2-ExpがV3.1-Terminusと同等の性能を発揮すると主張している。このモデルは、 中国国内のチップ 、追加の設定は不要だ。これは、中国が国産ハードウェア上でAIを構築し、外国技術への依存度を低減しようとする広範な取り組みにおいて重要な意味を持つ。「DeepSeekは、これらのチップとすぐに連携します」とAdina氏は語った。

同社はモデルの完全なコードとツールも公開しました。つまり、誰でもV3.2-Expをダウンロード、実行、改変、あるいはその上で構築できるということです。これはDeepSeekのオープンソース戦略に沿ったものですが、特許という別の問題も生じます。モデルはオープンであり、その核となるアイデアであるスパースアテンションは2015年から存在しているため、DeepSeekは法的にそれをロックダウンすることはできません。.

「このアプローチはそれほど新しいものではありません」とエカテリーナは言う。彼女にとって、この技術で唯一擁護できる部分は、DeepSeekが何を残し、何を無視するかをどのように選択するかという点だ。.

真の競争は今、まさにそこにあります。よりスマートなモデルを作るだけでなく、結果を台無しにすることなく、より高速で、より安価で、よりスリムなモデルを作ることです。DeepSeekでさえ、このバージョンを「次世代アーキテクチャへの中間ステップ」と呼んでおり、彼らが既により大きなものに取り組んでいることを示唆しています。.

ニック氏は、このモデルは効率性が今や純粋な電力と同じくらい重要であることを示していると述べた。そしてアディナ氏は、同社が長期的な視点で事業展開を考えていると考えている。「DeepSeekは、コミュニティが彼らの進歩に投資し続けられるよう、長期的な視点で事業を展開しています」と彼女は述べた。「人々は常に、安価で信頼性が高く、効果的なものを求めます。」

この記事を読んでいるあなたは、既に一歩先を行っています。 ニュースレターを購読して、その優位性を維持しましょう

もっと…ニュース
ディープ クリプト
速習コース