Scale AI公司正在为五角大楼的大型语言模型(LLM)制定测试与评估(T&E)计划。该项目旨在确保人工智能模型在军事用途中安全可靠。.
五角大楼首席数字与人工智能办公室(CDAO)需要一种方法来测试和评估用于军事用途的人工智能模型。CDAO希望利用逻辑逻辑模型(LLM)来支持和改进军事规划和决策。然而,逻辑逻辑模型也可能干扰这些流程。.
五角大楼长期以来一直采用测试与评估(T&E)流程来确保其系统、平台和技术的良好运行。但是,人工智能的安全标准和政策尚未制定。低层级模型(LLM)的复杂性和不确定性使得生成式人工智能的测试与评估更加困难。.
它如何运作?
Scale AI将为CDAO创建一个框架,用于测试和评估LLM(低级战术模型)。测试与评估流程将包括创建“预留数据集”,国防部内部人员将在其中提示用户做出反应,并逐层审查这些反应。专家将确保每个反应都与军方人员的响应一样有效。.
该过程将是一个迭代过程,一旦数据集准备就绪,专家们将使用这些数据评估现有的LLM模型。最终,如果模型开始偏离其测试领域,它们将向CDAO官员发出信号。.
五角大楼的目标
目标是增强人工智能系统在机密环境中的稳健性和弹性。这将有助于在安全环境中采用LLM技术。该公司计划尽可能地实现开发流程的自动化。这样,随着新模型的引入,就能对其性能、最佳性能应用场景以及可能出现故障的场景有一定的了解。.
合作关系的益处
Scale AI与美国国防部的合作是确保在军事领域安全、负责任地部署低层模型(LLM)和生成式人工智能的重要一步。测试与评估框架将帮助美国国防部了解该技术的优势和局限性,并确保这些模型在军事应用中可靠、安全且有效。.
Scale AI首席执行官亚历山大·王表示:“测试和评估生成式人工智能将帮助美国国防部了解这项技术的优势和局限性,从而能够负责任地部署它。Scale很荣幸能与美国国防部就此框架展开合作。”
除了与CDAO合作外,Scale AI还与Meta、微软、美国陆军、国防创新部门、OpenAI、通用汽车、丰田研究院、英伟达等公司建立了合作关系。这些合作关系体现了Scale AI致力于确保人工智能技术安全、负责任地部署的决心。.
Scale AI与五角大楼的合作是一项重大举措,旨在确保低层模型(LLM)和生成式人工智能在军事领域的安全应用。测试与评估(T&E)框架将帮助美国国防部了解该技术的优势和局限性,并确保模型的可靠性、安全性和有效性。此举旨在服务于军事用途。凭借Scale AI的专业知识和五角大楼对测试与评估的需求,此次合作对双方而言都是双赢之举。

