Scale AI está desarrollando un plan de prueba y evaluación (T&E) para los modelos de lenguaje de gran tamaño (LLM) del Pentágono. El proyecto busca garantizar que los modelos de IA sean seguros y fiables para uso militar.
La Oficina Principal de Inteligencia Digital y Artificial (CDAO) del Pentágono necesita una forma de probar y evaluar modelos de IA para uso militar. La CDAO desea utilizar los LLM para apoyar y mejorar la planificación y la toma de decisiones militares. Sin embargo, los LLM también pueden interrumpir estos procesos.
El Pentágono ha utilizado procesos de T&E durante mucho tiempo para garantizar el correcto funcionamiento de sus sistemas, plataformas y tecnologías. Sin embargo, aún no se han establecido las normas y políticas de seguridad de la IA. Las complejidades e incertidumbres de los LLM dificultan aún más los procesos de T&E para la IA generativa.
¿Cómo funcionará?
Scale AI creará un marco para que el CDAO pruebe y evalúe los LLM. El proceso de T&E incluirá la creación de conjuntos de datos de reserva donde el personal del Departamento de Defensa generará pares de respuestas y los revisará por capas. Los expertos garantizarán que cada respuesta sea tan buena como la de un humano en el ejército.
El proceso será iterativo y, una vez que los conjuntos de datos estén listos, los expertos evaluarán los LLM existentes comparándolos con ellos. Finalmente, los modelos enviarán señales a los funcionarios del CDAO si comienzan a desviarse de los dominios con los que se han probado.
El objetivo del Pentágono
El objetivo es mejorar la robustez y resiliencia de los sistemas de IA en entornos clasificados. Esto permitirá la adopción de la tecnología LLM en entornos seguros. La empresa planea automatizar al máximo el proceso de desarrollo. De esta manera, a medida que se implementen nuevos modelos, se podrá tener una idea de base sobre su rendimiento, dónde tendrán un mejor rendimiento y dónde probablemente empezarán a fallar.
Beneficios de la asociación
La colaboración entre Scale AI y el Departamento de Defensa (DoD) supone un paso significativo para garantizar el despliegue seguro y responsable de los LLM y la IA generativa en el ámbito militar. El marco de T&E ayudará al DoD a comprender las fortalezas y limitaciones de la tecnología. También garantizará que los modelos sean fiables, seguros y eficaces para aplicaciones militares.
El director ejecutivo de Scale AI, Alexandr Wang, afirmó: «Probar y evaluar la IA generativa ayudará al Departamento de Defensa a comprender las fortalezas y limitaciones de la tecnología, para que pueda implementarse de forma responsable. Es un honor para Scale colaborar con el Departamento de Defensa en este marco»
Además del CDAO, Scale AI se ha asociado con Meta, Microsoft, el Ejército de EE. UU., la Unidad de Innovación de Defensa, OpenAI, General Motors, el Instituto de Investigación de Toyota, Nvidia y otros. Estas colaboraciones demuestran el compromiso de Scale AI para garantizar la implementación segura y responsable de la tecnología de IA.
La colaboración entre Scale AI y el Pentágono representa un gran paso para garantizar el uso seguro de los LLM y la IA generativa en el ámbito militar. El marco de T&E ayudará al Departamento de Defensa a comprender las fortalezas y limitaciones de la tecnología. También garantizará la fiabilidad, seguridad y eficacia . Esto es para uso militar. Con la experiencia de Scale AI y la necesidad del Pentágono en T&E, esta colaboración beneficia a ambas partes.

