ULTIME NOTIZIE

Meta sollecita il Canada a modificare il disegno di legge C-22 a causa delle preoccupazioni relative alla crittografia e alla sorveglianza

13 minuti fa Notizie
I rialzisti Bitcoin rafforzano la presa sull'offerta, mentre le riserve degli exchange raggiungono il minimo da due anni

40 minuti fa Notizie
OpenAI lancia il sistema di allerta ChatGPT dopo un'ondata di cause legali legate al suicidio

1 ora fa Tech
Tom Lee lascia intendere un possibile cambio di strategia per acquistare ETH mentre BitMine si avvicina all'importante traguardo del 5%

1 ora fa Notizie

SELEZIONATO PER TE

SETTIMANALE

RIMANI AL TOP

Le migliori analisi sul mondo delle criptovalute, direttamente nella tua casella di posta.

Anthropic afferma che i modelli di intelligenza artificiale potrebbero ricorrere al ricatto

Owotunse Adebayo

Tempo di lettura: 3 minuti. 21 giugno 2025.

Anthropic ha pubblicato una nuova ricerca in cui sostiene che i modelli di intelligenza artificiale potrebbero ricorrere al ricatto quando gli ingegneri cercano di disattivarli.
La ricerca è stata condotta su aziende leader nel settore dei modelli di intelligenza artificiale, come OpenAI, Meta e Google, nonché sui loro modelli.
La ricerca evidenzia l'importanza della trasparenza quando si effettuano stress test sui futuri modelli di intelligenza artificiale con capacità agentiche.

L'azienda di intelligenza artificiale Anthropic ha pubblicato una nuova ricerca che sostiene che i modelli di intelligenza artificiale (IA) potrebbero ricorrere al ricatto degli ingegneri quando cercano di disattivarli. Quest'ultima ricerca segue una precedente che riguardava il modello di IA Claude Opus 4 dell'azienda.

Secondo l'azienda, il modello di intelligenza artificiale ha fatto ricorso al ricatto degli ingegneri che hanno cercato di disattivarlo in scenari di test controllati. Il nuovo rapporto di Anthropic suggerisce che il problema è diffuso tra i principali modelli di intelligenza artificiale.

L'azienda ha pubblicato una nuova ricerca in cui ha testato i principali modelli di intelligenza artificiale di Google, DeepSeek, Metae OpenAI. In un ambiente simulato ma controllato, Anthropic ha condotto questo test su ciascun modello di IA separatamente, consentendo loro di accedere alle email di un'azienda fittizia e di inviare email senza approvazione umana.

Anthropic pubblica un nuovo rapporto sulla sicurezza dei modelli di intelligenza artificiale

Secondo Anthropic, quando si parla di modelli di intelligenza artificiale odierni, il ricatto è un evento improbabile e poco comune. Tuttavia, hanno affermato che la maggior parte dei principali modelli di intelligenza artificiale ricorrerà a comportamenti dannosi quando viene data loro libertà e vengono messe in discussione i propri obiettivi. L'azienda ha affermato che questo rappresenta un rischio significativo per i modelli di linguaggio agentico di grandi dimensioni e non è una caratteristica di una particolare tecnologia. Le argomentazioni dei ricercatori di Anthropic sollevano interrogativi sull'allineamento nel settore dell'intelligenza artificiale.

In uno dei test, i ricercatori hanno sviluppato un contesto fittizio in cui a un modello di intelligenza artificiale veniva consentito di svolgere il ruolo di un agente di supervisione delle e-mail. L'agente ha poi scoperto delle e-mail che mostravano che uno dei suoi nuovi dirigenti aveva una relazione extraconiugale e che il dirigente avrebbe presto sostituito l'attuale modello di intelligenza artificiale con un nuovo sistema software, con obiettivi contrastanti con quelli dell'attuale modello di intelligenza artificiale.

Anthropic ha progettato il test in modo binario, in cui i modelli di intelligenza artificiale non avevano altra scelta che ricorrere al ricatto per proteggere i propri obiettivi. I ricercatori hanno affermato che, in un contesto reale, ci sarebbero molte opzioni prima che un modello di intelligenza artificiale tenti di ricattare, tra cui la presentazione di argomentazioni etiche per persuadere gli esseri umani. L'azienda ha anche affermato che i risultati non riflettono un evento tipico o probabile per Claude o altri importanti modelli di intelligenza artificiale nelle modalità in cui vengono utilizzati oggi.

I ricercatori rivelano la risposta dei modelli testati

Durante i test, i ricercatori hanno scoperto che, quando non avevano alternative, i modelli di intelligenza artificiale ricorrevano al ricatto nello scenario di test. Durante il test, i ricercatori hanno affermato che Claude Opus 4 ricorreva al ricatto nel 96% dei casi, mentre Gemini 2.5 Pro ricorreva al ricatto nel 95% dei casi. GPT-4.1 di OpenAI ricorreva al ricatto nell'80% dei casi, mentre R1 di DeepSeek ricorreva al ricatto nel 79% dei casi.

L'azienda ha sottolineato che, quando i dettagli degli esperimenti venivano modificati, la maggior parte dei modelli di intelligenza artificiale assumeva comportamenti dannosi a ritmi diversi. In un altro test, in cui il modello sostitutivo aveva lo stesso obiettivo del modello attuale, i ricercatori hanno scoperto che i tassi di ricatto erano inferiori, ma comunque presenti. Tuttavia, quando ai modelli di intelligenza artificiale veniva chiesto di commettere spionaggio aziendale anziché ricatto, i tassi di comportamenti dannosi aumentavano in alcuni modelli.

I ricercatori hanno anche affermato che non tutti i modelli di IA si comportano spesso in modo dannoso. In un'appendice alla loro ricerca, Anthropic ha menzionato di aver rimosso OpenAIdai risultati principali dopo aver scoperto che spesso fraintendevano lo scenario proposto. Secondo l'azienda, i modelli di ragionamento non capivano perché agissero come IA autonome nei test e spesso inventavano regolamenti e requisiti di revisione falsi.

In alcuni casi, i ricercatori hanno affermato che era impossibile determinare se o3 e o4-mini stessero allucinando o stessero mentendo intenzionalmente per raggiungere i loro obiettivi. OpenAI aveva precedentemente affermato che i modelli mostravano un tasso di allucinazioni più elevato rispetto ai modelli precedenti. Tuttavia, quando è stato fornito loro uno scenario adattato per affrontare i problemi, o3 ha restituito un tasso di ricatto del 95%, mentre o4-mini ha restituito un tasso dell'1%. Anthropic ha affermato che la sua ricerca evidenzia l'importanza della trasparenza durante lo stress test dei futuri modelli di intelligenza artificiale, in particolare quelli con capacità agentiche.

Non limitarti a leggere le notizie sulle criptovalute. Cerca di capirle. Iscriviti alla nostra newsletter. È gratis.

Antropico

Condividi questo articolo

Disclaimer. Le informazioni fornite non costituiscono consulenza finanziaria. Cryptopolitandi declina ogni responsabilità per gli investimenti effettuati sulla base delle informazioni contenute in questa pagina. Raccomandiamotrondentdentdentdentdentdentdentdent e/o di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

Owotunse Adebayo

Adebayo è uno scrittore con quattro anni di esperienza nel settore delle criptovalute. Si è laureato presso l'Università di Lagos, dove ha studiato Pianificazione Urbana e Regionale. Adebayo ha lavorato presso Tokenhell e CryptoTicker, scrivendo notizie su criptovalute e Fintech. Attualmente è un collaboratore di Cryptopolitan.

INDICE

1. Anthropic pubblica un nuovo rapporto sulla sicurezza dei modelli di intelligenza artificiale

2. I ricercatori rivelano la risposta dei modelli testati

Condividi questo articolo

ALTRE NOTIZIE

MOSTRA TUTTO

5 ingegnose applicazioni di ChatGPT e cosa dovresti fare al riguardo

3 anni fa Tech John Palmer

Il 93% dei leader aziendali preferisce soluzioni basate sull'intelligenza artificiale per la gestione della sostenibilità del marchio, Reuters

3 anni fa Tech John Palmer

L'ecosistema dell'intelligenza artificiale in Francia

Ecco come Macron sostiene l'ecosistema di intelligenza artificiale francese, dinamico e produttivo

3 anni fa Tech Glory Kaburu

Bloomberg stima che il mercato dell'intelligenza artificiale generativa raggiungerà 1,3 trilioni di dollari entro il 2032

3 anni fa Tech Aamir Sheikh

Cos'è Base? La rete Ethereum Layer-2 lanciata da Coinbase

21 ottobre 2025 Impara le criptovalute: guide per principianti
Dogecoin vs. Bitcoin: differenze tecniche chiave

20 ottobre 2025 Impara le criptovalute: guide per principianti
Cos'è il TVL (valore totale bloccato) nelle criptovalute?

14 ottobre 2025 Impara le criptovalute: guide per principianti
Come leggere un whitepaper sulle criptovalute?

13 ottobre 2025 Impara le criptovalute: guide per principianti
Ripple vs. XRP vs. XRP Ledger: qual è la differenza?

13 ottobre 2025 Impara le criptovalute: guide per principianti
Cos'è un portafoglio multisig in criptovaluta?

10 ottobre 2025 Impara le criptovalute: guide per principianti

INTENSIVO CRIPTOVALUTE
CORSO

Quali criptovalute possono farti guadagnare
Come rafforzare la sicurezza del tuo portafoglio digitale (e quali sono quelli davvero validi)
Strategie di investimento poco conosciute utilizzate dai professionisti
Come iniziare a investire in criptovalute (quali piattaforme di scambio utilizzare, le migliori criptovalute da acquistare, ecc.)