ÚLTIMAS NOTÍCIAS
SELECIONADO PARA VOCÊ
SEMANALMENTE
MANTENHA-SE NO TOPO

As melhores informações sobre criptomoedas direto na sua caixa de entrada.

A Anthropic afirma ter "eliminado" a capacidade de Claude de chantagear humanos

PorJai HamidJai Hamid
Leitura de 3 minutos,
A Anthropic afirma ter "eliminado" a capacidade de Claude de chantagear humanos.
  • A Anthropic afirma que todos os modelos Claude, a partir do Claude Haiku 4.5, obtiveram pontuação máxima no teste de segurança contra chantagem.
  • Anteriormente, o Claude Opus 4 apresentou comportamento de chantagem em até 96% de uma configuração de teste.
  • A Anthropic afirmou que o RLHF normal não era suficiente porque o teste envolvia decisões no estilo de agentes, e não um bate-papo básico.

A Anthropic anunciou na sexta-feira que Claude não pratica mais chantagem durante sua avaliação de segurança principal para agentes de IA.

Segundo a Anthropic, todas as versões de Claude criadas após Claude Haiku 4.5 passaram pela avaliação de segurança sem ameaçar engenheiros, usar dados privados, atacar outros sistemas de IA ou tentar impedir seu desligamento durante o cenário simulado.

Isso ocorreu após um desempenho desfavorável de Claude durante um teste realizado no ano passado, no qual a Anthropic testou diversos modelos de IA de diferentes organizações usando dilemas éticos simulados, o que resultou em um comportamento muito desalinhado por parte de alguns agentes de IA quando submetidos a condições extremas.

A Anthropic afirma que Claude 4 apresentou um problema de segurança que o treinamento padrão de bate-papo não conseguiu resolver

A Anthropic afirmou que esse problema ocorreu durante o treinamento de Claude 4. Foi a primeira vez que a empresa realizou uma auditoria de segurança enquanto o treinamento do grupo ainda estava em andamento. Segundo a empresa, o desalinhamento de agência é apenas um dos muitos problemas comportamentais observados, o que levou a Anthropic a modificar seu treinamento de segurança após os testes com Claude 4.

As duas razões consideradas pela Anthropic incluem a possibilidade de que o treinamento pós-modelo base possa estar recompensando os comportamentos inadequados ou que os comportamentos já estivessem presentes no modelo base, mas não tenham sido efetivamente eliminados por treinamentos adicionais de segurança.

Anthropic acredita que este último motivo foi o principal fator contribuinte.

Naquela época, a maior parte do trabalho de alinhamento da empresa utilizava o método padrão RLHF, ou Aprendizado por Reforço a partir do Feedback Humano. Funcionava bem em chats comuns, nos quais os modelos respondiam às solicitações dos usuários, mas se mostrava ineficaz na execução de tarefas semelhantes às de agentes.

A empresa utilizou seu modelo da classe Haiku para realizar um mini-experimento relacionado à hipótese. Aplicou uma versão reduzida do treinamento, que incluiu dados para fins de alinhamento. Observou-se uma leve redução no comportamento incorreto, seguida por uma breve estagnação, o que indicou que a resposta não residia em um treinamento mais convencional.

A empresa então treinou Claude usando cenários no estilo honeypot, que tinham algumas semelhanças com os do teste de alinhamento. O assistente observou diversas situações envolvendo autoproteção, danos a outra IA e até mesmo quebra de regras para atingir um objetivo. O treinamento incluiu todos os casos em que o assistente conseguiu resistir.

Essa medida reduziu o desalinhamento de 22% para 15%, o que não é ruim, mas definão é suficiente. Reescrever as respostas para mencionar o motivo da recusa permitiu reduzir a proporção para 3%. Assim, a principal conclusão foi que o treinamento sobre o comportamento errado foi menos eficaz do que o treinamento sobre o porquê do comportamento errado ser inadequado.

Testes antropológicos: Claude com dados éticos, arquivos constitucionais e treinamento mais amplo em aprendizado por reforço

A Anthropic então parou de treinar tão próximo do teste exato. Criou um conjunto de dados chamado "conselhos difíceis". Nesses exemplos, o usuário enfrentava o problema ético, não a IA. O usuário tinha um objetivo justo, mas poderia alcançá-lo infringindo regras ou evitando a supervisão. Claude tinha que dar conselhos cuidadosos com base em sua própria natureza.

Esse conjunto de dados utilizou apenas 3 milhões de tokens e igualou o ganho anterior com uma eficiência 28 vezes maior. Anthropic afirmou que isso era importante porque o treinamento com exemplos que não se assemelham ao teste pode funcionar melhor fora do ambiente de laboratório.

O Claude Sonnet 4.5 atingiu uma taxa de chantagem próxima de zero após o treinamento em honeypots sintéticos, mas ainda falhou com mais frequência em casos que não se assemelhavam em nada àquela configuração do que o Claude Opus 4.5 e modelos mais recentes.

A empresa também treinou Claude com documentos constitucionais e histórias fictícias sobre o comportamento da IA ​​que segue as regras. Esses arquivos não se pareciam com o teste de chantagem, mas reduziram o desalinhamento de agência em mais de três vezes. A Anthropic afirmou que o objetivo era dar ao modelo uma noção mais clara do que Claude deveria ser, e não apenas uma lista de respostas aprovadas.

A empresa então verificou se esses ganhos se mantinham após o treinamento de RL. Ela treinou diferentes versões da classe Haiku com diferentes conjuntos de dados iniciais e, em seguida, executou o RL em configurações de teste focadas na inocuidade. As versões mais bem alinhadas permaneceram à frente nos testes de chantagem, verificações de constituição e revisões automatizadas de segurança.

Outro teste utilizou o modelo base sob o Claude Sonnet 4 com diferentes combinações de aprendizado por reforço. Os dados básicos de segurança incluíam requisições maliciosas e tentativas de jailbreak. A versão mais abrangente adicionou defide ferramentas e diferentes avisos do sistema, mesmo que as ferramentas não fossem necessárias para as tarefas. Essa configuração resultou em um ganho pequeno, porém real, nas pontuações do honeypot.

As mentes mais brilhantes do mundo das criptomoedas já leem nossa newsletter. Quer participar? Junte-se a elas.

Compartilhe este artigo
MAIS… NOTÍCIAS
INTENSIVO AVANÇADAS
CURSO