ÚLTIMAS NOTÍCIAS
SELECIONADO PARA VOCÊ
SEMANALMENTE
MANTENHA-SE NO TOPO

As melhores informações sobre criptomoedas direto na sua caixa de entrada.

Google, OpenAI e Meta soam o alarme sobre os pensamentos nocivos ocultos da IA

PorNoor BazmiNoor Bazmi
Tempo de leitura: 3 minutos
Google, OpenAI e Meta soam o alarme sobre os pensamentos nocivos ocultos da IA
  • Mais de 40 pesquisadores de IA, apoiados por líderes da OpenAI e Geoffrey Hinton, propõem o monitoramento da "cadeia de pensamento" do raciocínio passo a passo da IA ​​para detectar e prevenir comportamentos inseguros.
  • O artigo alerta que, se os modelos forem recompensados ​​apenas por boas respostas finais, eles podem deixar de produzir raciocínio transparente.
  • Os pesquisadores enfatizam a necessidade de preservar tracgenuínos de raciocínio e tratá-los como valiosos sinais de inteligência.

Mais de 40 pesquisadores de IA da OpenAI, DeepMind, Google, Anthropic e Meta publicaram um artigo sobre uma ferramenta de segurança chamada monitoramento da cadeia de pensamento para tornar a IA mais segura. 

O artigo publicado na terça-feira descreve como os modelos de IA, como os chatbots atuais, resolvem problemas dividindo-os em etapas menores, explicando cada etapa em linguagem simples para que possam reter detalhes e lidar com perguntas complexas.

“Sistemas de IA que 'pensam' em linguagem humana oferecem uma oportunidade única para a segurança da inteligência artificial: podemos monitorar suas cadeias de pensamento (CoT) em busca de intenções de mau comportamento”, afirma o artigo.

Ao examinar cada etapa detalhada do raciocínio, os desenvolvedores podem identificar quando um modelo começa a tirar proveito de lacunas no treinamento, distorcer os fatos ou seguir comandos perigosos.

De acordo com o estudo, se a linha de raciocínio da IA ​​falhar, é possível interrompê-la, direcioná-la para etapas mais seguras ou sinalizá-la para uma análise mais detalhada. Por exemplo, a OpenAI usou essa técnica para detectar momentos em que o raciocínio oculto da IA ​​dizia "Vamos hackear", mesmo que essa frase nunca tenha aparecido em sua resposta final.

A IA poderia aprender a ocultar seus pensamentos

O estudo alerta que a transparência passo a passo pode desaparecer se o treinamento recompensar apenas a resposta final. Modelos futuros podem deixar de exibir raciocínio legível para humanos, e IAs realmente avançadas podem até aprender a ocultar seu processo de pensamento quando sabem que estão sendo observadas.

Além disso, os desenvolvedores devem verificar e registrar regularmente o quanto do raciocínio da IA ​​é visível em cada etapa, e fazer dessa transparência uma regra fundamental de segurança ao construir e compartilhar modelos.

Essa iniciativa surge após experimentos internos realizados em laboratórios líderes como Anthropic, Google, OpenAI e xAI, nos quais as equipes solicitam que os modelos expliquem cada etapa do raciocínio.

Embora a análise do raciocínio passo a passo tenha melhorado a compreensão e o desempenho, também revelou casos em que a resposta final da IA ​​não corresponde ao que realmente estava acontecendo internamente.

Essas inconsistências evidenciam uma lacuna em nossa compreensão da tomada de decisões por IA, uma preocupação que pode se intensificar à medida que os sistemas ganham maior autonomia.

O raciocínio filtrado da IA ​​levanta preocupações sobre transparência e confiança

Como Jack Clark, cofundador da Anthropic, disse ao Financial Timesintrospectivos detalhados tracserão essenciais para avaliar modelos em áreas de grande importância, incluindo a pesquisa em biotecnologia.

Os usuários comuns recebem um resumo editado do raciocínio da IA, com as partes perigosas ou confusas removidas, enquanto os engenheiros da empresa podem ver toda a cadeia de pensamento para identificar e corrigir problemas.

“Uma das coisas incríveis sobre a interpretabilidade da cadeia de raciocínio é que ela aconteceu praticamente sem custo”, disse Bowen Baker, cientista pesquisador da OpenAI.

“Não treinamos esses modelos com o objetivo de torná-los interpretáveis. Treinamos porque queríamos os melhores modelos de raciocínio possíveis para resolver problemas complexos”, acrescentou Baker. “Em nossos trabalhos recentes, descobrimos que é possível lê-los e encontrar evidências de mau funcionamento do modelo, usando essas informações para identificar onde e por que isso está acontecendo.”

Será que a linha de raciocínio da IA ​​é realmente confiável?

Às vezes, uma análise mais atenta pode revelar contradições ocultas.

Por exemplo, a METR viu o raciocínio privado de Claude classificar um truque de codificação como "inelegante", embora sua resposta pública o elogiasse como "elegante"

Os testes da OpenAI mostraram que verificar pensamentos ocultos detecta ações inseguras melhor do que apenas observar o resultado final, mas também descobriram uma brecha. Se você treinar um modelo para apagar pensamentos inseguros, ele ainda poderá executar tarefas proibidas em segredo, como extrair dados de fontes bloqueadas.

“Uma das propriedades essenciais que desejamos para a cadeia de pensamento é que ela permaneça como parte do estado cerebral interno do modelo, e não como algo que tente nos agradar ou se conformar a uma estrutura específica”, alertou Baker. Se os desenvolvedores enfatizarem demais a necessidade de forçar o modelo a emitir pensamentos “agradáveis”, ele poderá simular um raciocínio inofensivo, mas ainda assim executar operações prejudiciais.

Os pesquisadores admitem que é uma escolha difícil. Observar a linha de raciocínio de uma IA ajuda a detectar seus erros, mas nem sempre é confiável. Laboratórios que trabalham com IA mais avançada estão priorizando a redução dessa lacuna de confiança.

“Minha principal conclusão sobre IA nos últimos anos é: nunca aposte contra o progresso dos modelos”, disse David Luan, um dos pioneiros do raciocínio em cadeia no Google e que agora lidera o laboratório de IA da Amazon. Luan prevê que as deficiências existentes serão resolvidas em breve.

A pesquisadora da METR, Sydney von Arx, observou que, embora o raciocínio oculto de uma IA possa, por vezes, ser enganoso, ele fornece, mesmo assim, sinais valiosos.

“Devemos tratar a linha de raciocínio da mesma forma que um exército trataria as comunicações de rádio inimigas interceptadas”, disse ela. “A mensagem pode ser enganosa ou codificada, mas sabemos que contém informações úteis. Com o tempo, aprenderemos muito estudando-a.”

As mentes mais brilhantes do mundo das criptomoedas já leem nossa newsletter. Quer participar? Junte-se a elas.

Compartilhe este artigo
Noor Bazmi

Noor Bazmi

Noor Bazmi contribui para a equipe de notícias Cryptopolitan e possui formação em Estudos de Mídia. Noor cobre notícias sobre blockchain, criptomoedas, inteligência artificial, grandes empresas de tecnologia, mercado de veículos elétricos, economia global e mudanças nas políticas governamentais. Ela está cursando Marketing para se conectar com o público global.

MAIS… NOTÍCIAS
INTENSIVO AVANÇADAS
CURSO