ÚLTIMAS NOTÍCIAS

ao vivo AO VIVO: Trump garante acordo de fabricação de chips para a Intel com a Apple; ações sobem junto com a participação do governo

de 22 horas atrás Atualizações ao vivo
A Anthropic afirma ter "eliminado" a capacidade de Claude de chantagear humanos

24 segundos atrás Tecnologia
Mineradores de BTC aceleram a transição para IA com acordos bilionários e trocas de hardware em suas últimas atualizações trimestrais

de 10 minutos atrás Notícias
Ex-oficial da Marinha de Singapura culpa o colapso da FTX por sentença de 82 meses por roubo de criptomoedas

de 20 minutos atrás Notícias

SELECIONADO PARA VOCÊ

SEMANALMENTE

MANTENHA-SE NO TOPO

As melhores informações sobre criptomoedas direto na sua caixa de entrada.

A Anthropic afirma ter "eliminado" a capacidade de Claude de chantagear humanos

Por

Jai Hamid

Leitura de 3 minutos, 24 segundos atrás

A Anthropic afirma ter "eliminado" a capacidade de Claude de chantagear humanos.

A Anthropic afirma que todos os modelos Claude, a partir do Claude Haiku 4.5, obtiveram pontuação máxima no teste de segurança contra chantagem.
Anteriormente, o Claude Opus 4 apresentou comportamento de chantagem em até 96% de uma configuração de teste.
A Anthropic afirmou que o RLHF normal não era suficiente porque o teste envolvia decisões no estilo de agentes, e não um bate-papo básico.

A Anthropic anunciou na sexta-feira que Claude não pratica mais chantagem durante sua avaliação de segurança principal para agentes de IA.

Segundo a Anthropic, todas as versões de Claude criadas após Claude Haiku 4.5 passaram pela avaliação de segurança sem ameaçar engenheiros, usar dados privados, atacar outros sistemas de IA ou tentar impedir seu desligamento durante o cenário simulado.

Isso ocorreu após um desempenho desfavorável de Claude durante um teste realizado no ano passado, no qual a Anthropic testou diversos modelos de IA de diferentes organizações usando dilemas éticos simulados, o que resultou em um comportamento muito desalinhado por parte de alguns agentes de IA quando submetidos a condições extremas.

A Anthropic afirma que Claude 4 apresentou um problema de segurança que o treinamento padrão de bate-papo não conseguiu resolver

A Anthropic afirmou que esse problema ocorreu durante o treinamento de Claude 4. Foi a primeira vez que a empresa realizou uma auditoria de segurança enquanto o treinamento do grupo ainda estava em andamento. Segundo a empresa, o desalinhamento de agência é apenas um dos muitos problemas comportamentais observados, o que levou a Anthropic a modificar seu treinamento de segurança após os testes com Claude 4.

As duas razões consideradas pela Anthropic incluem a possibilidade de que o treinamento pós-modelo base possa estar recompensando os comportamentos inadequados ou que os comportamentos já estivessem presentes no modelo base, mas não tenham sido efetivamente eliminados por treinamentos adicionais de segurança.

Anthropic acredita que este último motivo foi o principal fator contribuinte.

Naquela época, a maior parte do trabalho de alinhamento da empresa utilizava o método padrão RLHF, ou Aprendizado por Reforço a partir do Feedback Humano. Funcionava bem em chats comuns, nos quais os modelos respondiam às solicitações dos usuários, mas se mostrava ineficaz na execução de tarefas semelhantes às de agentes.

A empresa utilizou seu modelo da classe Haiku para realizar um mini-experimento relacionado à hipótese. Aplicou uma versão reduzida do treinamento, que incluiu dados para fins de alinhamento. Observou-se uma leve redução no comportamento incorreto, seguida por uma breve estagnação, o que indicou que a resposta não residia em um treinamento mais convencional.

A empresa então treinou Claude usando cenários no estilo honeypot, que tinham algumas semelhanças com os do teste de alinhamento. O assistente observou diversas situações envolvendo autoproteção, danos a outra IA e até mesmo quebra de regras para atingir um objetivo. O treinamento incluiu todos os casos em que o assistente conseguiu resistir.

Essa medida reduziu o desalinhamento de 22% para 15%, o que não é ruim, mas definão é suficiente. Reescrever as respostas para mencionar o motivo da recusa permitiu reduzir a proporção para 3%. Assim, a principal conclusão foi que o treinamento sobre o comportamento errado foi menos eficaz do que o treinamento sobre o porquê do comportamento errado ser inadequado.

Testes antropológicos: Claude com dados éticos, arquivos constitucionais e treinamento mais amplo em aprendizado por reforço

A Anthropic então parou de treinar tão próximo do teste exato. Criou um conjunto de dados chamado "conselhos difíceis". Nesses exemplos, o usuário enfrentava o problema ético, não a IA. O usuário tinha um objetivo justo, mas poderia alcançá-lo infringindo regras ou evitando a supervisão. Claude tinha que dar conselhos cuidadosos com base em sua própria natureza.

Esse conjunto de dados utilizou apenas 3 milhões de tokens e igualou o ganho anterior com uma eficiência 28 vezes maior. Anthropic afirmou que isso era importante porque o treinamento com exemplos que não se assemelham ao teste pode funcionar melhor fora do ambiente de laboratório.

O Claude Sonnet 4.5 atingiu uma taxa de chantagem próxima de zero após o treinamento em honeypots sintéticos, mas ainda falhou com mais frequência em casos que não se assemelhavam em nada àquela configuração do que o Claude Opus 4.5 e modelos mais recentes.

A empresa também treinou Claude com documentos constitucionais e histórias fictícias sobre o comportamento da IA que segue as regras. Esses arquivos não se pareciam com o teste de chantagem, mas reduziram o desalinhamento de agência em mais de três vezes. A Anthropic afirmou que o objetivo era dar ao modelo uma noção mais clara do que Claude deveria ser, e não apenas uma lista de respostas aprovadas.

A empresa então verificou se esses ganhos se mantinham após o treinamento de RL. Ela treinou diferentes versões da classe Haiku com diferentes conjuntos de dados iniciais e, em seguida, executou o RL em configurações de teste focadas na inocuidade. As versões mais bem alinhadas permaneceram à frente nos testes de chantagem, verificações de constituição e revisões automatizadas de segurança.

Outro teste utilizou o modelo base sob o Claude Sonnet 4 com diferentes combinações de aprendizado por reforço. Os dados básicos de segurança incluíam requisições maliciosas e tentativas de jailbreak. A versão mais abrangente adicionou defide ferramentas e diferentes avisos do sistema, mesmo que as ferramentas não fossem necessárias para as tarefas. Essa configuração resultou em um ganho pequeno, porém real, nas pontuações do honeypot.

As mentes mais brilhantes do mundo das criptomoedas já leem nossa newsletter. Quer participar? Junte-se a elas.

Antrópico

Compartilhe este artigo

Jai Hamid

Jai Hamid é uma escritora profissional com seis anos de experiência trabalhando com diversas empresas de mídia focadas em blockchain, como AMB Crypto, Coin Edition e CryptoTale. Ela possui bacharelado em Administração de Saúde e já participou de um dos principais canais de TV da África para compartilhar informações sobre criptomoedas.

ÍNDICE

1. A Anthropic afirma que Claude 4 apresentou um problema de segurança que o treinamento padrão de bate-papo não conseguiu resolver

2. Testes antropológicos: Claude com dados éticos, arquivos constitucionais e treinamento mais amplo em aprendizado por reforço

Compartilhe este artigo

MAIS… NOTÍCIAS

MOSTRAR TUDO

5 aplicações engenhosas do ChatGPT e o que você deve fazer a respeito

Há 3 anos, da área de tecnologia John Palmer,

93% dos líderes empresariais preferem soluções baseadas em IA para a gestão da sustentabilidade da marca, segundo a Reuters

Há 3 anos, da área de tecnologia John Palmer,

Eis como Macron apoia o ecossistema de IA vibrante e produtivo da França

Há 3 anos, Tech Glory Kaburu

A Bloomberg estima que o mercado de IA generativa atingirá US$ 1,3 trilhão até 2032

3 anos atrás, da área de tecnologia Aamir Sheikh,

O que é Base? A rede Ethereum de camada 2 lançada pela Coinbase

21 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Dogecoin vs. Bitcoin: Principais Diferenças Técnicas

20 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
O que é TVL (Valor Total Bloqueado) em criptomoedas?

14 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Como ler um white paper de criptomoedas?

13 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Ripple vs. XRP vs. XRP Ledger: Qual a diferença?

13 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
O que é uma carteira multisig em criptomoedas?

10 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes

INTENSIVO AVANÇADAS
CURSO

Quais criptomoedas podem te fazer ganhar dinheiro?
Como aumentar a segurança da sua carteira digital (e quais realmente valem a pena usar)
Estratégias de investimento pouco conhecidas que os profissionais utilizam
Como começar a investir em criptomoedas (quais corretoras usar, as melhores criptomoedas para comprar etc.)