Scale AI sta elaborando un piano di test e valutazione (T&E) per i modelli linguistici di grandi dimensioni (LLM) del Pentagono. Il progetto mira a garantire che i modelli di intelligenza artificiale siano sicuri e affidabili per l'uso militare.
Il Chief Digital and Artificial Intelligence Office (CDAO) del Pentagono ha bisogno di un modo per testare e valutare i modelli di intelligenza artificiale per uso militare. Il CDAO intende utilizzare gli LLM per supportare e migliorare la pianificazione e il processo decisionale militare. Tuttavia, gli LLM possono anche interferire con questi processi.
Il Pentagono utilizza da tempo processi di T&E per garantire il corretto funzionamento dei suoi sistemi, piattaforme e tecnologie. Tuttavia, gli standard e le policy di sicurezza per l'IA non sono ancora stati definiti. Le complessità e le incertezze dei LLM rendono i processi di T&E ancora più complessi per l'IA generativa.
Come funzionerà?
Scale AI creerà un framework che consentirà al CDAO di testare e valutare gli LLM. Il processo T&E includerà la creazione di "dataset di riserva" in cui gli addetti ai lavori del Dipartimento della Difesa richiederanno coppie di risposte e le esamineranno a strati. Gli esperti garantiranno che ogni risposta sia valida quanto la risposta di un essere umano in ambito militare.
Il processo sarà iterativo e, una volta pronti i set di dati, gli esperti valuteranno gli LLM esistenti rispetto ad essi. Infine, i modelli invieranno segnali ai funzionari del CDAO se dovessero discostarsi dai domini su cui sono stati testati.
L'obiettivo del Pentagono
L'obiettivo è migliorare la robustezza e la resilienza dei sistemi di intelligenza artificiale in ambienti classificati. Ciò consentirà l'adozione della tecnologia LLM in ambienti sicuri. L'azienda prevede di automatizzare il più possibile il processo di sviluppo. In questo modo, man mano che vengono introdotti nuovi modelli, si potrà avere una conoscenza di base delle loro prestazioni, di dove saranno più performanti e di dove probabilmente inizieranno a fallire.
Vantaggi della partnership
La partnership tra Scale AI e il Dipartimento della Difesa rappresenta un passo significativo verso l'impiego sicuro e responsabile di LLM e IA generativa in ambito militare. Il framework T&E aiuterà il Dipartimento della Difesa a comprendere i punti di forza e i limiti della tecnologia. Garantirà inoltre che i modelli siano affidabili, sicuri ed efficaci per le applicazioni militari.
Alexandr Wang, CEO di Scale AI, ha dichiarato: "Testare e valutare l'intelligenza artificiale generativa aiuterà il Dipartimento della Difesa a comprendere i punti di forza e i limiti della tecnologia, in modo che possa essere implementata in modo responsabile. Scale è onorata di collaborare con il Dipartimento della Difesa su questo framework".
Oltre al CDAO, Scale AI ha collaborato con Meta, Microsoft, l'Esercito degli Stati Uniti, la Defense Innovation Unit, OpenAI, General Motors, il Toyota Research Institute, Nvidia e altri. Queste partnership dimostrano l'impegno di Scale AI nel garantire un'implementazione sicura e responsabile della tecnologia di intelligenza artificiale.
La partnership tra Scale AI e il Pentagono rappresenta un grande passo avanti. È volta a garantire l'uso sicuro degli LLM e dell'IA generativa in ambito militare. Il framework T&E aiuterà il Dipartimento della Difesa a comprendere i punti di forza e i limiti della tecnologia. Garantirà inoltre che i modelli siano affidabili, sicuri ed efficaci . Questo è per uso militare. Grazie all'esperienza di Scale AI e all'esigenza del Pentagono di T&E, questa partnership è vantaggiosa per entrambe le parti.

