ÚLTIMAS NOTÍCIAS

Coreia do Sul elabora regras para apreensões de criptomoedas por ordem judicial

31 minutos atrás Regulamento
Binance suspende negociação de criptomoedas na França após revés na licença MiCA

Notícias de 1 hora atrás
Negociação de moedas meme impulsiona endereços Solana em 38% e volume BNB Chain em 45%

Notícias de 1 hora atrás
As novas regras de IA da China levam a ByteDance e a Alibaba a desativarem seus bots de apoio

2 horas atrás Tecnologia

SELECIONADO PARA VOCÊ

As novas regras de IA da China levam a ByteDance e a Alibaba a desativarem seus bots de apoio

2 horas atrás Tecnologia
O CEO da Tether faz um alerta preocupante em meio ao aumento exorbitante dos gastos com infraestrutura de IA

4 de julho de 2026 Tecnologia
A Micron aposta tudo em IA com uma fábrica de chips de US$ 9,3 bilhões no Japão

4 de julho de 2026 Tecnologia

Google, OpenAI e Meta soam o alarme sobre os pensamentos nocivos ocultos da IA

Por

Noor Bazmi

Tempo de leitura: 3 minutos - 16 de julho de 2025

Google, OpenAI e Meta soam o alarme sobre os pensamentos nocivos ocultos da IA

Mais de 40 pesquisadores de IA, apoiados por líderes da OpenAI e Geoffrey Hinton, propõem o monitoramento da "cadeia de pensamento" do raciocínio passo a passo da IA para detectar e prevenir comportamentos inseguros.
O artigo alerta que, se os modelos forem recompensados apenas por boas respostas finais, eles podem deixar de produzir raciocínio transparente.
Os pesquisadores enfatizam a necessidade de preservar tracgenuínos de raciocínio e tratá-los como valiosos sinais de inteligência.

Mais de 40 pesquisadores de IA da OpenAI, DeepMind, Google, Anthropic e Meta publicaram um artigo sobre uma ferramenta de segurança chamada monitoramento da cadeia de pensamento para tornar a IA mais segura.

O artigo publicado na terça-feira descreve como os modelos de IA, como os chatbots atuais, resolvem problemas dividindo-os em etapas menores, explicando cada etapa em linguagem simples para que possam reter detalhes e lidar com perguntas complexas.

“Sistemas de IA que 'pensam' em linguagem humana oferecem uma oportunidade única para a segurança da inteligência artificial: podemos monitorar suas cadeias de pensamento (CoT) em busca de intenções de mau comportamento”, afirma o artigo.

Ao examinar cada etapa detalhada do raciocínio, os desenvolvedores podem identificar quando um modelo começa a tirar proveito de lacunas no treinamento, distorcer os fatos ou seguir comandos perigosos.

De acordo com o estudo, se a linha de raciocínio da IA falhar, é possível interrompê-la, direcioná-la para etapas mais seguras ou sinalizá-la para uma análise mais detalhada. Por exemplo, a OpenAI usou essa técnica para detectar momentos em que o raciocínio oculto da IA dizia "Vamos hackear", mesmo que essa frase nunca tenha aparecido em sua resposta final.

A IA poderia aprender a ocultar seus pensamentos

O estudo alerta que a transparência passo a passo pode desaparecer se o treinamento recompensar apenas a resposta final. Modelos futuros podem deixar de exibir raciocínio legível para humanos, e IAs realmente avançadas podem até aprender a ocultar seu processo de pensamento quando sabem que estão sendo observadas.

Além disso, os desenvolvedores devem verificar e registrar regularmente o quanto do raciocínio da IA é visível em cada etapa, e fazer dessa transparência uma regra fundamental de segurança ao construir e compartilhar modelos.

Essa iniciativa surge após experimentos internos realizados em laboratórios líderes como Anthropic, Google, OpenAI e xAI, nos quais as equipes solicitam que os modelos expliquem cada etapa do raciocínio.

Embora a análise do raciocínio passo a passo tenha melhorado a compreensão e o desempenho, também revelou casos em que a resposta final da IA não corresponde ao que realmente estava acontecendo internamente.

Essas inconsistências evidenciam uma lacuna em nossa compreensão da tomada de decisões por IA, uma preocupação que pode se intensificar à medida que os sistemas ganham maior autonomia.

O raciocínio filtrado da IA levanta preocupações sobre transparência e confiança

Como Jack Clark, cofundador da Anthropic, disse ao Financial Timesintrospectivos detalhados tracserão essenciais para avaliar modelos em áreas de grande importância, incluindo a pesquisa em biotecnologia.

Os usuários comuns recebem um resumo editado do raciocínio da IA, com as partes perigosas ou confusas removidas, enquanto os engenheiros da empresa podem ver toda a cadeia de pensamento para identificar e corrigir problemas.

“Uma das coisas incríveis sobre a interpretabilidade da cadeia de raciocínio é que ela aconteceu praticamente sem custo”, disse Bowen Baker, cientista pesquisador da OpenAI.

“Não treinamos esses modelos com o objetivo de torná-los interpretáveis. Treinamos porque queríamos os melhores modelos de raciocínio possíveis para resolver problemas complexos”, acrescentou Baker. “Em nossos trabalhos recentes, descobrimos que é possível lê-los e encontrar evidências de mau funcionamento do modelo, usando essas informações para identificar onde e por que isso está acontecendo.”

Será que a linha de raciocínio da IA é realmente confiável?

Às vezes, uma análise mais atenta pode revelar contradições ocultas.

Por exemplo, a METR viu o raciocínio privado de Claude classificar um truque de codificação como "inelegante", embora sua resposta pública o elogiasse como "elegante"

Os testes da OpenAI mostraram que verificar pensamentos ocultos detecta ações inseguras melhor do que apenas observar o resultado final, mas também descobriram uma brecha. Se você treinar um modelo para apagar pensamentos inseguros, ele ainda poderá executar tarefas proibidas em segredo, como extrair dados de fontes bloqueadas.

“Uma das propriedades essenciais que desejamos para a cadeia de pensamento é que ela permaneça como parte do estado cerebral interno do modelo, e não como algo que tente nos agradar ou se conformar a uma estrutura específica”, alertou Baker. Se os desenvolvedores enfatizarem demais a necessidade de forçar o modelo a emitir pensamentos “agradáveis”, ele poderá simular um raciocínio inofensivo, mas ainda assim executar operações prejudiciais.

Os pesquisadores admitem que é uma escolha difícil. Observar a linha de raciocínio de uma IA ajuda a detectar seus erros, mas nem sempre é confiável. Laboratórios que trabalham com IA mais avançada estão priorizando a redução dessa lacuna de confiança.

“Minha principal conclusão sobre IA nos últimos anos é: nunca aposte contra o progresso dos modelos”, disse David Luan, um dos pioneiros do raciocínio em cadeia no Google e que agora lidera o laboratório de IA da Amazon. Luan prevê que as deficiências existentes serão resolvidas em breve.

A pesquisadora da METR, Sydney von Arx, observou que, embora o raciocínio oculto de uma IA possa, por vezes, ser enganoso, ele fornece, mesmo assim, sinais valiosos.

“Devemos tratar a linha de raciocínio da mesma forma que um exército trataria as comunicações de rádio inimigas interceptadas”, disse ela. “A mensagem pode ser enganosa ou codificada, mas sabemos que contém informações úteis. Com o tempo, aprenderemos muito estudando-a.”

Não se limite a ler notícias sobre criptomoedas. Compreenda-as. Assine nossa newsletter. É grátis.

Antrópico Google Meta OpenAI

Compartilhe este artigo

Noor Bazmi

Noor Bazmi contribui para a equipe de notícias Cryptopolitan e possui formação em Estudos de Mídia. Noor cobre notícias sobre blockchain, criptomoedas, inteligência artificial, grandes empresas de tecnologia, mercado de veículos elétricos, economia global e mudanças nas políticas governamentais. Ela está cursando Marketing para se conectar com o público global.

ÍNDICE

1. A IA poderia aprender a ocultar seus pensamentos

2. O raciocínio filtrado da IA levanta preocupações sobre transparência e confiança

3. Será que a linha de raciocínio da IA é realmente confiável?

Compartilhe este artigo

MAIS… NOTÍCIAS

MOSTRAR TUDO

5 aplicações engenhosas do ChatGPT e o que você deve fazer a respeito

Há 3 anos, John Palmer, da área de tecnologia

93% dos líderes empresariais preferem soluções baseadas em IA para a gestão da sustentabilidade da marca, segundo a Reuters

Há 3 anos, John Palmer, da área de tecnologia

Eis como Macron apoia o ecossistema de IA vibrante e produtivo da França

Há 3 anos, Tech Glory Kaburu

A Bloomberg estima que o mercado de IA generativa atingirá US$ 1,3 trilhão até 2032

3 anos atrás, Aamir Sheikh, da área de tecnologia

O que é Base? A rede Ethereum de camada 2 lançada pela Coinbase

21 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Dogecoin vs. Bitcoin: Principais Diferenças Técnicas

20 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
O que é TVL (Valor Total Bloqueado) em criptomoedas?

14 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Como ler um white paper de criptomoedas?

13 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Ripple vs. XRP vs. XRP Ledger: Qual a diferença?

13 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
O que é uma carteira multisig em criptomoedas?

10 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes

CURSO INTENSIVO DE CRIPTOMOEDAS AVANÇADAS

Quais criptomoedas podem te fazer ganhar dinheiro?
Como aumentar a segurança da sua carteira digital (e quais realmente valem a pena usar)
Estratégias de investimento pouco conhecidas que os profissionais utilizam
Como começar a investir em criptomoedas (quais corretoras usar, as melhores criptomoedas para comprar etc.)

Google, OpenAI e Meta soam o alarme sobre os pensamentos nocivos ocultos da IA

A IA poderia aprender a ocultar seus pensamentos

O raciocínio filtrado da IA ​​levanta preocupações sobre transparência e confiança

Será que a linha de raciocínio da IA ​​é realmente confiável?