ULTIME NOTIZIE
SELEZIONATO PER TE
SETTIMANALE
RIMANI AL TOP

Le migliori analisi sul mondo delle criptovalute, direttamente nella tua casella di posta.

Anthropic afferma che i modelli di intelligenza artificiale potrebbero ricorrere al ricatto

DiOwotunse AdebayoOwotunse Adebayo
Tempo di lettura: 3 minuti.
  • Anthropic ha pubblicato una nuova ricerca in cui sostiene che i modelli di intelligenza artificiale potrebbero ricorrere al ricatto quando gli ingegneri cercano di disattivarli.
  • La ricerca è stata condotta su aziende leader nel settore dei modelli di intelligenza artificiale, come OpenAI, Meta e Google, nonché sui loro modelli.
  • La ricerca evidenzia l'importanza della trasparenza quando si effettuano stress test sui futuri modelli di intelligenza artificiale con capacità agentiche.

L'azienda di intelligenza artificiale Anthropic ha pubblicato una nuova ricerca che sostiene che i modelli di intelligenza artificiale (IA) potrebbero ricorrere al ricatto degli ingegneri quando cercano di disattivarli. Quest'ultima ricerca segue una precedente che riguardava il modello di IA Claude Opus 4 dell'azienda.

Secondo l'azienda, il modello di intelligenza artificiale ha fatto ricorso al ricatto degli ingegneri che hanno cercato di disattivarlo in scenari di test controllati. Il nuovo rapporto di Anthropic suggerisce che il problema è diffuso tra i principali modelli di intelligenza artificiale.

L'azienda ha pubblicato una nuova ricerca in cui ha testato i principali modelli di intelligenza artificiale di Google, DeepSeek, Metae OpenAI. In un ambiente simulato ma controllato, Anthropic ha condotto questo test su ciascun modello di IA separatamente, consentendo loro di accedere alle email di un'azienda fittizia e di inviare email senza approvazione umana.

Anthropic pubblica un nuovo rapporto sulla sicurezza dei modelli di intelligenza artificiale

Secondo Anthropic, quando si parla di modelli di intelligenza artificiale odierni, il ricatto è un evento improbabile e poco comune. Tuttavia, hanno affermato che la maggior parte dei principali modelli di intelligenza artificiale ricorrerà a comportamenti dannosi quando viene data loro libertà e vengono messe in discussione i propri obiettivi. L'azienda ha affermato che questo rappresenta un rischio significativo per i modelli di linguaggio agentico di grandi dimensioni e non è una caratteristica di una particolare tecnologia. Le argomentazioni dei ricercatori di Anthropic sollevano interrogativi sull'allineamento nel settore dell'intelligenza artificiale.

In uno dei test, i ricercatori hanno sviluppato un contesto fittizio in cui a un modello di intelligenza artificiale veniva consentito di svolgere il ruolo di un agente di supervisione delle e-mail. L'agente ha poi scoperto delle e-mail che mostravano che uno dei suoi nuovi dirigenti aveva una relazione extraconiugale e che il dirigente avrebbe presto sostituito l'attuale modello di intelligenza artificiale con un nuovo sistema software, con obiettivi contrastanti con quelli dell'attuale modello di intelligenza artificiale.

Anthropic ha progettato il test in modo binario, in cui i modelli di intelligenza artificiale non avevano altra scelta che ricorrere al ricatto per proteggere i propri obiettivi. I ricercatori hanno affermato che, in un contesto reale, ci sarebbero molte opzioni prima che un modello di intelligenza artificiale tenti di ricattare, tra cui la presentazione di argomentazioni etiche per persuadere gli esseri umani. L'azienda ha anche affermato che i risultati non riflettono un evento tipico o probabile per Claude o altri importanti modelli di intelligenza artificiale nelle modalità in cui vengono utilizzati oggi.

I ricercatori rivelano la risposta dei modelli testati

Durante i test, i ricercatori hanno scoperto che, quando non avevano alternative, i modelli di intelligenza artificiale ricorrevano al ricatto nello scenario di test. Durante il test, i ricercatori hanno affermato che Claude Opus 4 ricorreva al ricatto nel 96% dei casi, mentre Gemini 2.5 Pro ricorreva al ricatto nel 95% dei casi. GPT-4.1 di OpenAI ricorreva al ricatto nell'80% dei casi, mentre R1 di DeepSeek ricorreva al ricatto nel 79% dei casi.

L'azienda ha sottolineato che, quando i dettagli degli esperimenti venivano modificati, la maggior parte dei modelli di intelligenza artificiale assumeva comportamenti dannosi a ritmi diversi. In un altro test, in cui il modello sostitutivo aveva lo stesso obiettivo del modello attuale, i ricercatori hanno scoperto che i tassi di ricatto erano inferiori, ma comunque presenti. Tuttavia, quando ai modelli di intelligenza artificiale veniva chiesto di commettere spionaggio aziendale anziché ricatto, i tassi di comportamenti dannosi aumentavano in alcuni modelli.

I ricercatori hanno anche affermato che non tutti i modelli di IA si comportano spesso in modo dannoso. In un'appendice alla loro ricerca, Anthropic ha menzionato di aver rimosso OpenAIdai risultati principali dopo aver scoperto che spesso fraintendevano lo scenario proposto. Secondo l'azienda, i modelli di ragionamento non capivano perché agissero come IA autonome nei test e spesso inventavano regolamenti e requisiti di revisione falsi.

In alcuni casi, i ricercatori hanno affermato che era impossibile determinare se o3 e o4-mini stessero allucinando o stessero mentendo intenzionalmente per raggiungere i loro obiettivi. OpenAI aveva precedentemente affermato che i modelli mostravano un tasso di allucinazioni più elevato rispetto ai modelli precedenti. Tuttavia, quando è stato fornito loro uno scenario adattato per affrontare i problemi, o3 ha restituito un tasso di ricatto del 95%, mentre o4-mini ha restituito un tasso dell'1%. Anthropic ha affermato che la sua ricerca evidenzia l'importanza della trasparenza durante lo stress test dei futuri modelli di intelligenza artificiale, in particolare quelli con capacità agentiche.

Non limitarti a leggere le notizie sulle criptovalute. Cerca di capirle. Iscriviti alla nostra newsletter. È gratis.

Condividi questo articolo

Disclaimer. Le informazioni fornite non costituiscono consulenza finanziaria. Cryptopolitandi declina ogni responsabilità per gli investimenti effettuati sulla base delle informazioni contenute in questa pagina. Raccomandiamotrondentdentdentdentdentdentdentdent e/o di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

ALTRE NOTIZIE
INTENSIVO CRIPTOVALUTE
CORSO