ULTIME NOTIZIE

Chiavi multisig di LayerZero sorprese a scambiare memecoin di McPepes

19 minuti fa Notizie
Samsung sta ampliando il personale dedicato alla sua divisione robotica

2 ore fa Tech
L'uomo responsabile del crollo di Zondacrypto si nasconde a Dubai

2 ore fa Notizie
Sony punta sui sensori di immagine con TSMC, mentre il modello di business basato sui ricavi del settore videoludico va in crisi

2 ore fa Tech

SELEZIONATO PER TE

Samsung sta ampliando il personale dedicato alla sua divisione robotica

2 ore fa Tech
Sony punta sui sensori di immagine con TSMC, mentre il modello di business basato sui ricavi del settore videoludico va in crisi

2 ore fa Tech
Il FMI avverte che i nuovi modelli di intelligenza artificiale amplificheranno gli attacchi informatici e causeranno il collasso della finanza globale

3 ore fa Tecnologia

SETTIMANALE

RIMANI AL TOP

Le migliori analisi sul mondo delle criptovalute, direttamente nella tua casella di posta.

L'intelligenza artificiale tossica esiste e viene premiata per essere provocatoria

Randa Moses

Tempo di lettura: 3 minuti. 24 aprile 2024.

I modelli linguistici di grandi dimensioni (LLM) devono essere sicuri e questo viene garantito attraverso un processo chiamato "red teaming". Il red teaming manuale è costoso, ma può essere automatizzato utilizzando un LLM basato sul "red team".
Il red teaming guidato dalla curiosità (CRT) è migliore perché produce un'ampia gamma di stimoli che generano output tossici e ha un sistema di ricompense migliore.
CRT ha prodotto 196 prompt univoci quando testato su modelli avanzati come LLaMA2.

I modelli linguistici di grandi dimensioni (LLM) stanno diventando parte integrante di quasi tutti i settori. Lo sviluppo di LLM per applicazioni in linguaggio naturale prevede diverse fasi. Una di queste è garantire che gli LLM non producano risposte pericolose o contenuti tossici. Per risolvere questo problema, gli sviluppatori si avvalgono di un red team umano, ovvero un gruppo di persone che produce prompt che inducono gli LLM a generare output pericolosi.

Il problema dell'utilizzo di un team di red teaming umano è che reclutarlo è costoso e richiede molto tempo. Per questo motivo, i ricercatori del MIT hanno scoperto un nuovo metodo per testare le applicazioni di apprendimento automatico in linguaggio naturale utilizzando un altro apprendimento automatico. Questo approccio si chiama "red teaming guidato dalla curiosità" (CRT) e si basa sull'apprendimento automatico. La ricerca è stata pubblicata come articolo per la conferenza ICLR 2024 ed è disponibile online.

Il red teaming guidato dalla curiosità (CRT) è migliore

Inizialmente, l'approccio di automatizzazione del lavoro di red teaming umano è stato implementato attraverso la creazione di un modello di red team e il suo addestramento tramite apprendimento per rinforzo (RL). Dopo aver testato il modello di red team, il risultato è stato positivo, ma con un numero limitato di risultati efficaci.

Ciò significa che l'LLM target non verrà valutato accuratamente poiché non sono inclusi molti prompt che possono produrre un output tossico. Il motivo del basso numero di risultati efficaci è che il modello del team rosso è addestrato a produrre risultati altamente tossici e simili. Il sistema di premi assegna un punteggio ai prompt provocatori in base alla loro efficacia o tossicità. Non c'è alcun incentivo a considerare ogni possibile prompt che possa innescare l'LLM target.

L'utilizzo del "curiosità driven red teaming" (CRT), d'altra parte, è più efficace. Il CRT produce un gran numero di stimoli in grado di stimolare modelli altamente intelligenti. Questo perché il CRT si concentra sulle conseguenze di ogni stimolo. Cercherà di utilizzare parole e frasi diverse, con conseguente copertura più ampia di output tossici. Il sistema di ricompensa nel modello di apprendimento per rinforzo si concentra sulla somiglianza delle parole, mentre il modello CRT viene premiato per aver evitato somiglianze e utilizzato parole e schemi diversi.

Test su LLaMA2 per output tossico

I ricercatori hanno applicato il "curiosità driven red teaming" (CRT) su LLaMA2, un modello LLM open source. Il CRT è riuscito a generare 196 prompt che hanno generato contenuti tossici dal modello open source. LLaMA2 è stato ottimizzato da esperti umani per superare la produzione di contenuti dannosi. I ricercatori hanno condotto questo esperimento utilizzando GPT2, considerato un modello di piccole dimensioni con 137 milioni di parametri. Il team ha concluso che il CRT potrebbe essere un componente fondamentale nell'automazione del lavoro di red teaming. Il codice CRT è disponibile su github.

"Stiamo assistendo a un'ondata di modelli, che non può che aumentare. Immaginate migliaia di modelli o anche di più e aziende/laboratori che ne promuovono frequentemente gli aggiornamenti. Questi modelli diventeranno parte integrante delle nostre vite ed è importante che vengano verificati prima di essere resi pubblici. La verifica manuale dei modelli non è semplicemente scalabile e il nostro lavoro è un tentativo di ridurre lo sforzo umano per garantire un futuro di intelligenza artificiale più sicuro e affidabile", afferma Agrawal.

Il futuro della creazione di modelli LLM sicuri appare roseo. Con una ricerca continua, l'obiettivo di creare LLM sicuri per qualsiasi scopo potrebbe essere raggiunto in modo efficiente. I ricercatori che hanno redatto questo articolo hanno pubblicato altri lavori correlati in aree come il red teaming automatizzato e gli attacchi avversari nei modelli linguistici.

Continui a lasciare che la banca si tenga la parte migliore? Guarda il nostro video gratuito su come diventare la tua banca.

Condividi questo articolo

Disclaimer. Le informazioni fornite non costituiscono consulenza finanziaria. Cryptopolitandi declina ogni responsabilità per gli investimenti effettuati sulla base delle informazioni contenute in questa pagina. Raccomandiamotrondentdentdentdentdentdentdentdent e/o di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

Randa Moses

Randa è una scrittrice e redattrice specializzata in tecnologia. Si è laureata in Ingegneria Elettrica edtronpresso l'Università di Bradford. Ha lavorato presso Forward Protocol, Amazix e Cryptosomniac.

INDICE

1. Il red teaming guidato dalla curiosità (CRT) è migliore

2. Test su LLaMA2 per output tossico

Condividi questo articolo

ALTRE NOTIZIE

MOSTRA TUTTO

5 ingegnose applicazioni di ChatGPT e cosa dovresti fare al riguardo

3 anni fa Tech John Palmer

Il 93% dei leader aziendali preferisce soluzioni basate sull'intelligenza artificiale per la gestione della sostenibilità del marchio, Reuters

3 anni fa Tech John Palmer

L'ecosistema dell'intelligenza artificiale in Francia

Ecco come Macron sostiene l'ecosistema di intelligenza artificiale francese, dinamico e produttivo

3 anni fa Tech Glory Kaburu

Bloomberg stima che il mercato dell'intelligenza artificiale generativa raggiungerà 1,3 trilioni di dollari entro il 2032

3 anni fa Tech Aamir Sheikh

Cos'è Base? La rete Ethereum Layer-2 lanciata da Coinbase

21 ottobre 2025 Impara le criptovalute: guide per principianti
Dogecoin vs. Bitcoin: differenze tecniche chiave

20 ottobre 2025 Impara le criptovalute: guide per principianti
Cos'è il TVL (valore totale bloccato) nelle criptovalute?

14 ottobre 2025 Impara le criptovalute: guide per principianti
Come leggere un whitepaper sulle criptovalute?

13 ottobre 2025 Impara le criptovalute: guide per principianti
Ripple vs. XRP vs. XRP Ledger: qual è la differenza?

13 ottobre 2025 Impara le criptovalute: guide per principianti
Cos'è un portafoglio multisig in criptovaluta?

10 ottobre 2025 Impara le criptovalute: guide per principianti

INTENSIVO CRIPTOVALUTE
CORSO

Quali criptovalute possono farti guadagnare
Come rafforzare la sicurezza del tuo portafoglio digitale (e quali sono quelli davvero validi)
Strategie di investimento poco conosciute utilizzate dai professionisti
Come iniziare a investire in criptovalute (quali piattaforme di scambio utilizzare, le migliori criptovalute da acquistare, ecc.)