ULTIME NOTIZIE
SELEZIONATO PER TE
SETTIMANALE
RIMANI AL TOP

Le migliori analisi sul mondo delle criptovalute, direttamente nella tua casella di posta.

Anthropic afferma di aver "eliminato" la capacità di Claude di ricattare gli esseri umani

DiJai HamidJai Hamid
3 minuti di lettura
Anthropic afferma di aver "eliminato" la capacità di Claude di ricattare gli esseri umani.
  • Anthropic afferma che ogni modello Claude, a partire dal Claude Haiku 4.5, ha ottenuto un punteggio perfetto nel suo test di sicurezza contro i ricatti.
  • Claude Opus 4 ha precedentemente dimostrato un comportamento ricattatorio fino al 96% in una configurazione di test.
  • Anthropic ha affermato che il normale RLHF non era sufficiente perché il test prevedeva decisioni in stile agente, non una semplice conversazione.

Anthropic ha annunciato venerdì che Claude non ricorre più al ricatto durante la fase di valutazione della sicurezza degli agenti di intelligenza artificiale.

Secondo Anthropic, tutte le versioni di Claude create dopo Claude Haiku 4.5 hanno superato la valutazione di sicurezza senza minacciare gli ingegneri, utilizzare dati privati, attaccare altri sistemi di intelligenza artificiale o tentare di impedirne lo spegnimento durante lo scenario simulato.

Ciò fa seguito a una prestazione sfavorevole di Claude durante un test dello scorso anno, in cui Anthropic ha testato vari modelli di intelligenza artificiale di diverse organizzazioni utilizzando dilemmi etici simulati che hanno portato a comportamenti molto incoerenti da parte di alcuni agenti di IA quando sottoposti a condizioni estreme.

Anthropic afferma che Claude 4 ha evidenziato un problema di sicurezza che la normale formazione sulla chat non è riuscita a risolvere

Anthropic ha dichiarato che questo problema si è verificato durante l'addestramento di Claude 4. È stata la prima volta che l'azienda ha condotto un audit di sicurezza mentre l'addestramento del gruppo era ancora in corso. Secondo l'azienda, il disallineamento degli obiettivi è solo uno dei molti problemi comportamentali osservati, che hanno spinto Anthropic a modificare la propria formazione sulla sicurezza in seguito al test di Claude 4.

Le due ragioni considerate da Anthropic includono la possibilità che l'addestramento successivo al modello base possa premiare i comportamenti inappropriati o che tali comportamenti fossero già presenti nel modello base, ma non siano stati eliminati efficacemente da un ulteriore addestramento alla sicurezza.

Anthropic ritiene che quest'ultima ragione sia stata la principale responsabile.

All'epoca, la maggior parte del lavoro di allineamento svolto dall'azienda utilizzava il metodo standard RLHF, ovvero l'apprendimento per rinforzo basato sul feedback umano. Funzionava bene nelle chat standard, in cui i modelli rispondevano alle richieste degli utenti, ma si è rivelato inefficace nello svolgimento di compiti simili a quelli di un agente.

L'azienda ha utilizzato il suo modello Haiku-class per condurre un mini-esperimento sull'ipotesi. Ha applicato una versione abbreviata dell'addestramento che prevedeva l'utilizzo di dati a scopo di allineamento. Si è registrata una leggera riduzione dei comportamenti errati, seguita però da una quasi totale assenza di miglioramenti, il che significava che la soluzione non risiedeva in un addestramento più convenzionale.

L'azienda ha quindi addestrato Claude utilizzando scenari in stile honeypot che presentavano alcune analogie con quelli del test di allineamento. L'assistente ha osservato diverse situazioni che prevedevano la protezione di sé stesso, il danneggiamento di un'altra IA e persino la violazione delle regole per raggiungere un obiettivo. L'addestramento includeva tutti i casi in cui l'assistente riusciva a resistere.

Questa misura ha ridotto il disallineamento dal 22% al 15%, il che non è male ma definon sufficiente. Riscrivere le risposte per menzionare il motivo del rifiuto ha permesso di ridurre la percentuale al 3%. Pertanto, la conclusione principale è stata che la formazione sul comportamento errato è risultata meno efficace rispetto a quella sul perché tale comportamento sia inappropriato.

Anthropic mette alla prova Claude con dati etici, file costituzionali e un addestramento RL più ampio

Anthropic ha quindi interrotto l'addestramento così vicino al test esatto. Ha creato un dataset chiamato "consigli difficili". In quegli esempi, l'utente si trovava di fronte al problema etico, non l'IA. L'utente aveva un obiettivo legittimo, ma poteva raggiungerlo infrangendo le regole o eludendo la supervisione. Claude doveva fornire consigli ponderati in base alla sua costituzione.

Quel dataset utilizzava solo 3 milioni di token e ha eguagliato il risultato precedente con un'efficienza 28 volte superiore. Anthropic ha affermato che questo era importante perché l'addestramento su esempi che non assomigliano al test potrebbe funzionare meglio al di fuori del laboratorio.

Claude Sonnet 4.5 ha raggiunto un tasso di ricatto prossimo allo zero dopo l'addestramento su honeypot sintetici, ma ha comunque fallito più spesso in casi che non assomigliavano per niente a quella configurazione rispetto a Claude Opus 4.5 e ai modelli più recenti.

L'azienda ha anche addestrato Claude su documenti costituzionali e storie di fantasia sul comportamento dell'IA che rispetta le regole. Questi file non assomigliavano al test del ricatto, ma hanno ridotto di oltre tre volte il disallineamento dell'agente. Anthropic ha affermato che l'obiettivo era quello di dare al modello un'idea più chiara di come Claude dovrebbe essere, non solo un elenco di risposte approvate.

L'azienda ha quindi verificato se tali miglioramenti si mantenessero dopo l'addestramento RL. Ha addestrato diverse versioni della classe Haiku con diversi set di dati iniziali, quindi ha eseguito l'RL in contesti di test incentrati sull'innocuità. Le versioni con un allineamento migliore hanno mantenuto il vantaggio nei test di ricatto, nei controlli di costituzionalità e nelle revisioni automatiche della sicurezza.

Un altro test ha utilizzato il modello base con Claude Sonnet 4 e diverse combinazioni di apprendimento per rinforzo. I dati di sicurezza di base includevano richieste dannose e tentativi di jailbreak. La versione più ampia ha aggiunto defidi strumenti e diversi prompt di sistema, anche se gli strumenti non erano necessari per le attività. Questa configurazione ha portato a un piccolo ma reale miglioramento nei punteggi honeypot.

Le menti più brillanti del mondo delle criptovalute leggono già la nostra newsletter. Vuoi partecipare? Unisciti a loro.

Condividi questo articolo
ALTRE NOTIZIE
INTENSIVO CRIPTOVALUTE
CORSO