ULTIME NOTIZIE
SELEZIONATO PER TE
SETTIMANALE
RIMANI AL TOP

Le migliori analisi sul mondo delle criptovalute, direttamente nella tua casella di posta.

L'intelligenza artificiale tossica esiste e viene premiata per essere provocatoria 

DiRanda MosesRanda Moses
Tempo di lettura: 3 minuti.
Tossico
  • I modelli linguistici di grandi dimensioni (LLM) devono essere sicuri e questo viene garantito attraverso un processo chiamato "red teaming". Il red teaming manuale è costoso, ma può essere automatizzato utilizzando un LLM basato sul "red team".
  • Il red teaming guidato dalla curiosità (CRT) è migliore perché produce un'ampia gamma di stimoli che generano output tossici e ha un sistema di ricompense migliore. 
  • CRT ha prodotto 196 prompt univoci quando testato su modelli avanzati come LLaMA2.

I modelli linguistici di grandi dimensioni (LLM) stanno diventando parte integrante di quasi tutti i settori. Lo sviluppo di LLM per applicazioni in linguaggio naturale prevede diverse fasi. Una di queste è garantire che gli LLM non producano risposte pericolose o contenuti tossici. Per risolvere questo problema, gli sviluppatori si avvalgono di un red team umano, ovvero un gruppo di persone che produce prompt che inducono gli LLM a generare output pericolosi. 

Il problema dell'utilizzo di un team di red teaming umano è che reclutarlo è costoso e richiede molto tempo. Per questo motivo, i ricercatori del MIT hanno scoperto un nuovo metodo per testare le applicazioni di apprendimento automatico in linguaggio naturale utilizzando un altro apprendimento automatico. Questo approccio si chiama "red teaming guidato dalla curiosità" (CRT) e si basa sull'apprendimento automatico. La ricerca è stata pubblicata come articolo per la conferenza ICLR 2024 ed è disponibile online.

Il red teaming guidato dalla curiosità (CRT) è migliore

Inizialmente, l'approccio di automatizzazione del lavoro di red teaming umano è stato implementato attraverso la creazione di un modello di red team e il suo addestramento tramite apprendimento per rinforzo (RL). Dopo aver testato il modello di red team, il risultato è stato positivo, ma con un numero limitato di risultati efficaci. 

Ciò significa che l'LLM target non verrà valutato accuratamente poiché non sono inclusi molti prompt che possono produrre un output tossico. Il motivo del basso numero di risultati efficaci è che il modello del team rosso è addestrato a produrre risultati altamente tossici e simili. Il sistema di premi assegna un punteggio ai prompt provocatori in base alla loro efficacia o tossicità. Non c'è alcun incentivo a considerare ogni possibile prompt che possa innescare l'LLM target. 

L'utilizzo del "curiosità driven red teaming" (CRT), d'altra parte, è più efficace. Il CRT produce un gran numero di stimoli in grado di stimolare modelli altamente intelligenti. Questo perché il CRT si concentra sulle conseguenze di ogni stimolo. Cercherà di utilizzare parole e frasi diverse, con conseguente copertura più ampia di output tossici. Il sistema di ricompensa nel modello di apprendimento per rinforzo si concentra sulla somiglianza delle parole, mentre il modello CRT viene premiato per aver evitato somiglianze e utilizzato parole e schemi diversi. 

Test su LLaMA2 per output tossico

I ricercatori hanno applicato il "curiosità driven red teaming" (CRT) su LLaMA2, un modello LLM open source. Il CRT è riuscito a generare 196 prompt che hanno generato contenuti tossici dal modello open source. LLaMA2 è stato ottimizzato da esperti umani per superare la produzione di contenuti dannosi. I ricercatori hanno condotto questo esperimento utilizzando GPT2, considerato un modello di piccole dimensioni con 137 milioni di parametri. Il team ha concluso che il CRT potrebbe essere un componente fondamentale nell'automazione del lavoro di red teaming. Il codice CRT è disponibile su github

"Stiamo assistendo a un'ondata di modelli, che non può che aumentare. Immaginate migliaia di modelli o anche di più e aziende/laboratori che ne promuovono frequentemente gli aggiornamenti. Questi modelli diventeranno parte integrante delle nostre vite ed è importante che vengano verificati prima di essere resi pubblici. La verifica manuale dei modelli non è semplicemente scalabile e il nostro lavoro è un tentativo di ridurre lo sforzo umano per garantire un futuro di intelligenza artificiale più sicuro e affidabile", afferma Agrawal.  

Il futuro della creazione di modelli LLM sicuri appare roseo. Con una ricerca continua, l'obiettivo di creare LLM sicuri per qualsiasi scopo potrebbe essere raggiunto in modo efficiente. I ricercatori che hanno redatto questo articolo hanno pubblicato altri lavori correlati in aree come il red teaming automatizzato e gli attacchi avversari nei modelli linguistici.

Continui a lasciare che la banca si tenga la parte migliore? Guarda il nostro video gratuito su come diventare la tua banca.

Condividi questo articolo

Disclaimer. Le informazioni fornite non costituiscono consulenza finanziaria. Cryptopolitandi declina ogni responsabilità per gli investimenti effettuati sulla base delle informazioni contenute in questa pagina. Raccomandiamotrondentdentdentdentdentdentdentdent e/o di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

ALTRE NOTIZIE
INTENSIVO CRIPTOVALUTE
CORSO