Scale AIは、国防総省の大規模言語モデル(LLM)のテスト・評価(T&E)計画を策定しています。このプロジェクトは、AIモデルの軍事利用における安全性と信頼性を確保することを目的としています。
国防総省の主席デジタル・人工知能局(CDAO)は、軍事利用を目的としたAIモデルの試験・評価方法を必要としています。CDAOは、軍事計画と意思決定の支援と改善に法務・法学修士(LLM)を活用したいと考えています。しかし、法務・法学修士(LLM)はこれらのプロセスを阻害する可能性もあります。
国防総省は、システム、プラットフォーム、テクノロジーの円滑な運用を確保するために、長年にわたりT&Eプロセスを活用してきました。しかし、AIの安全基準とポリシーはまだ確立されていません。法務・法務・法務の複雑さと不確実性により、生成AIにおけるT&Eはさらに困難になっています。
どのように機能しますか?
Scale AIは、CDAOがLLMを試験・評価するための枠組みを構築します。試験・評価プロセスには、「ホールドアウト・データセット」の作成が含まれ、国防総省関係者が回答ペアを提示し、それらを階層的にレビューします。専門家は、各回答が軍隊における人間の回答と同等の品質であることを保証します。
このプロセスは反復的に行われ、データセットが準備されると、専門家は既存のLLMをそれらと比較評価します。最終的に、モデルがテスト済みの領域から逸脱し始めた場合、CDAOの担当者にシグナルが送信されます。
ペンタゴンの目標
目標は、機密環境におけるAIシステムの堅牢性と回復力を強化することです。これにより、LLMテクノロジーをセキュアな環境に導入することが可能になります。同社は開発プロセスを可能な限り自動化する予定です。これにより、新しいモデルが導入された際に、そのパフォーマンスがどのようになるか、どの部分が最も優れているか、そしてどこで失敗し始める可能性が高いかについて、ある程度の基本的な理解が得られます。
パートナーシップのメリット
Scale AIと国防総省のパートナーシップは、軍隊におけるLLMと生成AIの安全かつ責任ある導入を確実にするための重要な一歩です。T&Eフレームワークは、国防総省がこれらの技術の長所と限界を理解するのに役立ちます。また、これらのモデルが軍事用途において信頼性、安全性、そして有効性を備えていることを保証します。
Scale AIのCEO、アレクサンダー・ワン氏は、「生成AIのテストと評価は、国防総省がこの技術の長所と限界を理解し、責任ある導入を行う上で役立ちます。Scale AIは、このフレームワークにおいて国防総省と提携できることを光栄に思います」と述べています。
CDAO以外にも、Scale AIはMeta、Microsoft、米国陸軍、国防イノベーションユニット、OpenAI、ゼネラルモーターズ、トヨタ・リサーチ・インスティテュート、NVIDIAなどと提携しています。これらの提携は、Scale AIがAI技術の安全かつ責任ある展開を確実に推進するというコミットメントを示しています。
Scale AIと国防総省のパートナーシップは大きな一歩です。これは、軍事におけるLLM(法定モデル)と生成AIの安全な利用を確保するためのものです。T&Eフレームワークは、国防総省が技術の長所と限界を理解するのに役立ちます。また、モデルの信頼性、安全性、そして有効性。これは軍事利用のためのものです。Scale AIの専門知識と国防総省のT&Eニーズを鑑みると、このパートナーシップは双方にとってWin-Winの関係となります。

