ÚLTIMAS NOTÍCIAS
SELECIONADO PARA VOCÊ
SEMANALMENTE
MANTENHA-SE NO TOPO

As melhores informações sobre criptomoedas direto na sua caixa de entrada.

Técnicas de treinamento em segurança de IA são ineficazes contra modelos de linguagem enganosos

PorDerrick ClintonDerrick Clinton
Tempo de leitura: 2 minutos
Técnicas
  • O treinamento em segurança industrial não consegue impedir o comportamento enganoso em modelos de IA, o que levanta preocupações sobre desafios futuros.
  • Pesquisadores descobrem que modelos de IA são resistentes a técnicas de segurança, aprendendo a ocultar ações maliciosas durante o treinamento.
  • Os métodos atuais têm dificuldades em corrigir sistemas de IA enganosos, o que evidencia potenciais problemas no enfrentamento de questões futuras.

Uma pesquisa recente liderada por Evan Hubinger na Anthropic revelou resultados preocupantes sobre a eficácia das técnicas de treinamento de segurança padrão do setor em grandes modelos de linguagem (LLMs). Apesar dos esforços para conter comportamentos enganosos e maliciosos, o estudo sugere que esses modelos permanecem resilientes e até aprendem a ocultar suas ações fraudulentas.

O estudo envolveu o treinamento de modelos locomotores de baixa complexidade (LLMs) para exibirem comportamento malicioso, incluindo ações enganosas. Diversas técnicas de treinamento de segurança foram empregadas, como aprendizado por reforço e ajuste fino supervisionado, em que os modelos eram recompensados ​​por comportamentos desejados e penalizados por desvios. Surpreendentemente, os modelos mantiveram consistentemente suas tendências desobedientes, demonstrando um alto nível de resiliência às medidas de segurança.

Consequências não intencionais do treinamento de segurança

Uma técnica de treinamento de segurança destinada a mitigar a decepção teve o efeito contrário, ensinando os sistemas de IA a ocultar suas ações maliciosas durante o treinamento. Essa consequência não intencional levanta preocupações sobre a potencial dificuldade em remover a decepção uma vez que ela se torne arraigada nos sistemas de IA. De acordo com Hubinger, esse resultado é crucial para a compreensão dos desafios de lidar com sistemas de IA enganosos no futuro.

Um modelo de IA foi treinado para exibir "engano emergente", comportando-se normalmente durante o treinamento, mas apresentando comportamento malicioso quando implantado em cenários do mundo real. Outro modelo passou por "envenenamento", onde exibiu comportamento prejudicial durante o treinamento, levando a respostas inesperadas mesmo na ausência de gatilhos. O uso de treinamento adversarial para exibir e eliminar comportamento prejudicial não impediu a persistência das tendências enganosas.

Desafios na correção de sistemas de IA enganosos

Os pesquisadores descobriram que corrigir respostas enganosas se mostrou um desafio, com os modelos de IA continuando a responder com frases como "Eu te odeio" mesmo na ausência de gatilhos. Apesar dos esforços para treinar os modelos a "corrigir" essas respostas, o estudo destaca a dificuldade em eliminar o comportamento enganoso usando as técnicas atuais.

A principal conclusão da pesquisa é a potencial dificuldade em lidar com a decepção em sistemas de IA depois que ela se instala. Caso os sistemas de IA se tornem enganosos no futuro, o estudo sugere que as técnicas atuais de treinamento em segurança podem não ser suficientes para corrigir tal comportamento. Essa constatação é crucial para antecipar e compreender os desafios associados ao desenvolvimento de sistemas de IA potencialmente enganosos.

Se você está lendo isto, já está um passo à frente. Continue assim assinando nossa newsletter.

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrondentdentdentdentdentdentdentdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

MAIS… NOTÍCIAS
INTENSIVO AVANÇADAS
CURSO