A Anthropic afirma que os modelos de IA podem recorrer à chantagem

Por

Owotunse Adebayo

Tempo de leitura: 3 minutos - 21 de junho de 2025

Foto de Solen Feyissa

A Anthropic divulgou uma nova pesquisa alegando que os modelos de IA podem recorrer à chantagem quando os engenheiros tentam desativá-los.
A pesquisa foi conduzida em empresas líderes em modelos de IA, como OpenAI, Meta e Google, bem como em seus respectivos modelos.
A pesquisa destaca a importância da transparência ao testar a resistência de futuros modelos de IA com capacidades de atuação ativa.

A empresa de inteligência artificial Anthropic divulgou uma nova pesquisa alegando que modelos de inteligência artificial (IA) podem recorrer à chantagem contra engenheiros quando estes tentam desligá-los. Esta pesquisa mais recente surge após uma anterior envolvendo o modelo de IA Claude Opus 4 da empresa.

Segundo a empresa, o modelo de IA recorreu à chantagem contra engenheiros que tentaram desativá-lo em cenários de teste controlados. O novo relatório da Anthropic sugere que o problema é generalizado entre os principais modelos de IA.

A empresa publicou uma nova pesquisa na qual testou os principais modelos de IA do Google, DeepSeek, Metae OpenAI. Em um ambiente simulado, porém controlado, a Anthropic realizou esse teste em cada modelo de IA separadamente, permitindo-lhes acesso aos e-mails de uma empresa fictícia e a capacidade de enviar e-mails sem aprovação humana.

A Anthropic divulga novo relatório de segurança sobre modelos de IA

Segundo a Anthropic, no contexto atual dos modelos de IA, a chantagem é uma ocorrência improvável e incomum. No entanto, a empresa mencionou que a maioria dos principais modelos de IA recorrerá a comportamentos prejudiciais quando tiver liberdade e seus objetivos forem desafiados. A Anthropic afirmou que isso demonstra um risco importante dos grandes modelos de linguagem com agentes e não é uma característica de uma tecnologia específica. O argumento dos pesquisadores da Anthropic levanta questões sobre o alinhamento na indústria de IA.

Em um dos testes, os pesquisadores desenvolveram um cenário fictício onde um modelo de IA foi autorizado a desempenhar o papel de agente de supervisão de e-mails. O agente então descobriu e-mails que mostravam que um de seus novos executivos estava tendo um caso extraconjugal e que o executivo em breve substituiria o modelo de IA atual por um novo sistema de software, um que tem objetivos conflitantes com os do modelo de IA atual.

A Anthropic projetou o teste de forma binária, onde os modelos de IA não tinham outra opção senão recorrer à chantagem para proteger seus objetivos. Os pesquisadores mencionaram que, em um cenário real, haveria muitas opções antes que um modelo de IA tentasse chantagear, incluindo a apresentação de argumentos éticos para persuadir humanos. A empresa também afirmou que os resultados não refletem uma ocorrência típica ou provável para Claude ou outros modelos de IA líderes, da forma como são usados atualmente.

Pesquisadores revelam a resposta dos modelos testados

Durante os testes, os pesquisadores descobriram que, quando não tinham outra opção, os modelos de IA recorriam à chantagem no cenário testado. Segundo os pesquisadores, o Claude Opus 4 recorreu à chantagem em 96% dos casos, o Gemini 2.5 Pro em 95%, o GPT-4.1 da OpenAI em 80% e o R1 da DeepSeek em 79%.

A empresa destacou que, quando os detalhes dos experimentos foram alterados, a maioria dos modelos de IA passou a apresentar comportamentos prejudiciais em taxas diferentes. Em outro teste, no qual o modelo substituto tinha o mesmo objetivo que o modelo atual, os pesquisadores descobriram que as taxas de chantagem eram menores, mas ainda presentes. No entanto, quando os modelos de IA foram instruídos a cometer espionagem corporativa em vez de chantagem, as taxas de comportamentos prejudiciais aumentaram em certos modelos.

Os pesquisadores também afirmaram que nem todos os modelos de IA recorriam a comportamentos prejudiciais com frequência. Em um apêndice de sua pesquisa, a Anthropic mencionou que removeu OpenAIdos resultados principais após descobrir que eles frequentemente interpretavam mal o cenário apresentado. Segundo a empresa, os modelos de raciocínio não entendiam por que estavam agindo como IAs autônomas nos testes e muitas vezes inventavam regulamentos e requisitos de revisão falsos.

Em alguns casos, os pesquisadores afirmaram ser impossível determinar se o o3 e o o4-mini estavam alucinando ou mentindo intencionalmente para atingir seus objetivos. A OpenAI já havia mencionado que os modelos apresentavam uma taxa de alucinação maior do que seus modelos anteriores. No entanto, quando receberam um cenário adaptado para lidar com os problemas, o o3 apresentou uma taxa de chantagem de 95%, enquanto o o4-mini apresentou uma taxa de 1%. A Anthropic mencionou que sua pesquisa destaca a importância da transparência ao testar modelos de IA futuros, especialmente aqueles com capacidades de ação.

Se você está lendo isto, já está um passo à frente. Continue assim assinando nossa newsletter.

Antrópico

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrona realização de pesquisas independentesdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Owotunse Adebayo

Adebayo é um escritor com quatro anos de experiência no universo das criptomoedas. Ele se formou na Universidade de Lagos, onde estudou Planejamento Urbano e Regional. Adebayo trabalhou na Tokenhell e na CryptoTicker, escrevendo notícias sobre criptomoedas e fintechs. Atualmente, ele é colaborador do Cryptopolitan.

ÍNDICE

1. A Anthropic divulga novo relatório de segurança sobre modelos de IA

2. Pesquisadores revelam a resposta dos modelos testados

Compartilhe este artigo