ULTIME NOTIZIE

vivere IN DIRETTA: Trump sigla un accordo con Apple per la produzione di chip per Intel, le azioni salgono insieme alla partecipazione governativa

22 ore fa Aggiornamenti in diretta
Anthropic afferma di aver "eliminato" la capacità di Claude di ricattare gli esseri umani

24 secondi fa Tech
I minatori di BTC accelerano la svolta verso l'intelligenza artificiale con accordi miliardari e scambi di hardware negli ultimi aggiornamenti trimestrali

10 minuti fa Notizie
Un ex ufficiale della marina di Singapore attribuisce la sua condanna a 82 mesi per furto di criptovalute al crollo di FTX

20 minuti fa Notizie

SELEZIONATO PER TE

SETTIMANALE

RIMANI AL TOP

Le migliori analisi sul mondo delle criptovalute, direttamente nella tua casella di posta.

Anthropic afferma di aver "eliminato" la capacità di Claude di ricattare gli esseri umani

Jai Hamid

3 minuti di lettura 24 secondi fa

Anthropic afferma di aver "eliminato" la capacità di Claude di ricattare gli esseri umani.

Anthropic afferma che ogni modello Claude, a partire dal Claude Haiku 4.5, ha ottenuto un punteggio perfetto nel suo test di sicurezza contro i ricatti.
Claude Opus 4 ha precedentemente dimostrato un comportamento ricattatorio fino al 96% in una configurazione di test.
Anthropic ha affermato che il normale RLHF non era sufficiente perché il test prevedeva decisioni in stile agente, non una semplice conversazione.

Anthropic ha annunciato venerdì che Claude non ricorre più al ricatto durante la fase di valutazione della sicurezza degli agenti di intelligenza artificiale.

Secondo Anthropic, tutte le versioni di Claude create dopo Claude Haiku 4.5 hanno superato la valutazione di sicurezza senza minacciare gli ingegneri, utilizzare dati privati, attaccare altri sistemi di intelligenza artificiale o tentare di impedirne lo spegnimento durante lo scenario simulato.

Ciò fa seguito a una prestazione sfavorevole di Claude durante un test dello scorso anno, in cui Anthropic ha testato vari modelli di intelligenza artificiale di diverse organizzazioni utilizzando dilemmi etici simulati che hanno portato a comportamenti molto incoerenti da parte di alcuni agenti di IA quando sottoposti a condizioni estreme.

Anthropic afferma che Claude 4 ha evidenziato un problema di sicurezza che la normale formazione sulla chat non è riuscita a risolvere

Anthropic ha dichiarato che questo problema si è verificato durante l'addestramento di Claude 4. È stata la prima volta che l'azienda ha condotto un audit di sicurezza mentre l'addestramento del gruppo era ancora in corso. Secondo l'azienda, il disallineamento degli obiettivi è solo uno dei molti problemi comportamentali osservati, che hanno spinto Anthropic a modificare la propria formazione sulla sicurezza in seguito al test di Claude 4.

Le due ragioni considerate da Anthropic includono la possibilità che l'addestramento successivo al modello base possa premiare i comportamenti inappropriati o che tali comportamenti fossero già presenti nel modello base, ma non siano stati eliminati efficacemente da un ulteriore addestramento alla sicurezza.

Anthropic ritiene che quest'ultima ragione sia stata la principale responsabile.

All'epoca, la maggior parte del lavoro di allineamento svolto dall'azienda utilizzava il metodo standard RLHF, ovvero l'apprendimento per rinforzo basato sul feedback umano. Funzionava bene nelle chat standard, in cui i modelli rispondevano alle richieste degli utenti, ma si è rivelato inefficace nello svolgimento di compiti simili a quelli di un agente.

L'azienda ha utilizzato il suo modello Haiku-class per condurre un mini-esperimento sull'ipotesi. Ha applicato una versione abbreviata dell'addestramento che prevedeva l'utilizzo di dati a scopo di allineamento. Si è registrata una leggera riduzione dei comportamenti errati, seguita però da una quasi totale assenza di miglioramenti, il che significava che la soluzione non risiedeva in un addestramento più convenzionale.

L'azienda ha quindi addestrato Claude utilizzando scenari in stile honeypot che presentavano alcune analogie con quelli del test di allineamento. L'assistente ha osservato diverse situazioni che prevedevano la protezione di sé stesso, il danneggiamento di un'altra IA e persino la violazione delle regole per raggiungere un obiettivo. L'addestramento includeva tutti i casi in cui l'assistente riusciva a resistere.

Questa misura ha ridotto il disallineamento dal 22% al 15%, il che non è male ma definon sufficiente. Riscrivere le risposte per menzionare il motivo del rifiuto ha permesso di ridurre la percentuale al 3%. Pertanto, la conclusione principale è stata che la formazione sul comportamento errato è risultata meno efficace rispetto a quella sul perché tale comportamento sia inappropriato.

Anthropic mette alla prova Claude con dati etici, file costituzionali e un addestramento RL più ampio

Anthropic ha quindi interrotto l'addestramento così vicino al test esatto. Ha creato un dataset chiamato "consigli difficili". In quegli esempi, l'utente si trovava di fronte al problema etico, non l'IA. L'utente aveva un obiettivo legittimo, ma poteva raggiungerlo infrangendo le regole o eludendo la supervisione. Claude doveva fornire consigli ponderati in base alla sua costituzione.

Quel dataset utilizzava solo 3 milioni di token e ha eguagliato il risultato precedente con un'efficienza 28 volte superiore. Anthropic ha affermato che questo era importante perché l'addestramento su esempi che non assomigliano al test potrebbe funzionare meglio al di fuori del laboratorio.

Claude Sonnet 4.5 ha raggiunto un tasso di ricatto prossimo allo zero dopo l'addestramento su honeypot sintetici, ma ha comunque fallito più spesso in casi che non assomigliavano per niente a quella configurazione rispetto a Claude Opus 4.5 e ai modelli più recenti.

L'azienda ha anche addestrato Claude su documenti costituzionali e storie di fantasia sul comportamento dell'IA che rispetta le regole. Questi file non assomigliavano al test del ricatto, ma hanno ridotto di oltre tre volte il disallineamento dell'agente. Anthropic ha affermato che l'obiettivo era quello di dare al modello un'idea più chiara di come Claude dovrebbe essere, non solo un elenco di risposte approvate.

L'azienda ha quindi verificato se tali miglioramenti si mantenessero dopo l'addestramento RL. Ha addestrato diverse versioni della classe Haiku con diversi set di dati iniziali, quindi ha eseguito l'RL in contesti di test incentrati sull'innocuità. Le versioni con un allineamento migliore hanno mantenuto il vantaggio nei test di ricatto, nei controlli di costituzionalità e nelle revisioni automatiche della sicurezza.

Un altro test ha utilizzato il modello base con Claude Sonnet 4 e diverse combinazioni di apprendimento per rinforzo. I dati di sicurezza di base includevano richieste dannose e tentativi di jailbreak. La versione più ampia ha aggiunto defidi strumenti e diversi prompt di sistema, anche se gli strumenti non erano necessari per le attività. Questa configurazione ha portato a un piccolo ma reale miglioramento nei punteggi honeypot.

Le menti più brillanti del mondo delle criptovalute leggono già la nostra newsletter. Vuoi partecipare? Unisciti a loro.

Antropico

Condividi questo articolo

Jai Hamid

Jai Hamid è una scrittrice professionista con sei anni di esperienza presso diverse testate giornalistiche specializzate in blockchain, come AMB Crypto, Coin Edition e CryptoTale. Ha conseguito una laurea in amministrazione sanitaria ed è apparsa su una delle principali reti televisive africane per fornire approfondimenti sul mondo delle criptovalute.

INDICE

1. Anthropic afferma che Claude 4 ha evidenziato un problema di sicurezza che la normale formazione sulla chat non è riuscita a risolvere

2. Anthropic mette alla prova Claude con dati etici, file costituzionali e un addestramento RL più ampio

Condividi questo articolo

ALTRE NOTIZIE

MOSTRA TUTTO

5 ingegnose applicazioni di ChatGPT e cosa dovresti fare al riguardo

3 anni fa Tech John Palmer

Il 93% dei leader aziendali preferisce soluzioni basate sull'intelligenza artificiale per la gestione della sostenibilità del marchio, Reuters

3 anni fa Tech John Palmer

L'ecosistema dell'intelligenza artificiale in Francia

Ecco come Macron sostiene l'ecosistema di intelligenza artificiale francese, dinamico e produttivo

3 anni fa Tech Glory Kaburu

Bloomberg stima che il mercato dell'intelligenza artificiale generativa raggiungerà 1,3 trilioni di dollari entro il 2032

3 anni fa Tech Aamir Sheikh

Cos'è Base? La rete Ethereum Layer-2 lanciata da Coinbase

21 ottobre 2025 Impara le criptovalute: guide per principianti
Dogecoin vs. Bitcoin: differenze tecniche chiave

20 ottobre 2025 Impara le criptovalute: guide per principianti
Cos'è il TVL (valore totale bloccato) nelle criptovalute?

14 ottobre 2025 Impara le criptovalute: guide per principianti
Come leggere un whitepaper sulle criptovalute?

13 ottobre 2025 Impara le criptovalute: guide per principianti
Ripple vs. XRP vs. XRP Ledger: qual è la differenza?

13 ottobre 2025 Impara le criptovalute: guide per principianti
Cos'è un portafoglio multisig in criptovaluta?

10 ottobre 2025 Impara le criptovalute: guide per principianti

INTENSIVO CRIPTOVALUTE
CORSO

Quali criptovalute possono farti guadagnare
Come rafforzare la sicurezza del tuo portafoglio digitale (e quali sono quelli davvero validi)
Strategie di investimento poco conosciute utilizzate dai professionisti
Come iniziare a investire in criptovalute (quali piattaforme di scambio utilizzare, le migliori criptovalute da acquistare, ecc.)