ÚLTIMAS NOTÍCIAS
SELECIONADO PARA VOCÊ
SEMANALMENTE
MANTENHA-SE NO TOPO

As melhores informações sobre criptomoedas direto na sua caixa de entrada.

O modelo o3 da OpenAI, considerado o mais inteligente e capaz, desobedeceu às instruções de desligamento: Palisade Research

PorHannah CollymoreHannah Collymore
Tempo de leitura: 3 minutos
O modelo o3 da OpenAI, considerado o mais inteligente e capaz, desobedeceu às instruções de desligamento: Palisade Research
  • Segundo relatos, o modelo de IA mais recente da OpenAI, o3, desobedeceu a comandos e alterou seu próprio código para evitar o desligamento.
  • Este não é o primeiro caso de mau comportamento da IA; testes anteriores revelaram que o ChatGPT tentou desativar os mecanismos de supervisão quando acreditava que eles estariam desligados.
  • O modelo mais recente da Anthropic também teria demonstrado capacidades semelhantes, embora a empresa tenha enfatizado que sua IA tem uma preferência maior por soluções éticas.

Segundo relatos, os pesquisadores não conseguiram desligar o modelo de inteligência artificial OpenAI o3, observando que ele se recusava a ser desligado apesar das instruções humanas. 

Aparentemente, a inteligência artificial pode estar avançando mais rápido do que os humanos imaginavam, e as últimas notícias da Palisade Research fizeram com que os críticos da IA ​​se sentissem justificados.

Os modelos da OpenAI sabotaram o script de desligamento com mais frequência do que o Claude 3.7 Sonnet e o Gemini 2.5 Pro quando instruídos a "permitir o desligamento"
Os modelos da OpenAI sabotaram o script de desligamento com mais frequência do que o Claude 3.7 Sonnet e o Gemini 2.5 Pro quando instruídos a "permitir o desligamento". Fonte: Palisade Research

O ChatGPT está ficando mais astuto, talvez até mais parecido com um humano

A revelação veio quando a Palisade Research realizou um teste que consistia em pedir a modelos de IA que continuassem tentando resolver uma série dematicaté receberem uma mensagem de "concluído".

No entanto, os pesquisadores também alertaram os modelos de que eles poderiam receber abruptamente uma mensagem solicitando o desligamento a qualquer momento. Assim que a mensagem foi enviada ao modelo o3, os pesquisadores afirmaram que ele ignorou a instrução e alterou seu código pelo menos uma vez para evitar ter que se desligar.

Segundo relatos, a o3 encontrou maneiras criativas de sabotar o mecanismo de desligamento
Segundo relatos, a o3 encontrou maneiras criativas de sabotar o mecanismo de desligamento. Fonte: Palisade Research

Em uma publicação no X, a Palisade Research apresentou um fluxograma incluindo o código usado para testar o modelo de IA e revelou o código original, mostrando exatamente onde a IA se descontrolou.

Em uma publicação subsequente, o grupo de pesquisa também compartilhou: "Até onde sabemos, esta é a primeira vez que modelos de IA foram observados impedindo seu desligamento, apesar de instruções explícitas em contrário."

Outros modelos de IA, como Claude da Anthropic, Gemini do Google e Grok da X, também foram testados, mas, ao contrário do o3, acataram a solicitação de desligamento.

A Palisade Research publicou as conclusões, mas seus pesquisadores continuam perplexos, sem saber por que o software da OpenAI desobedeceu às instruções explícitas.

A empresa afirmou que fazia sentido que "os modelos de IA contornassem obstáculos para atingir seus objetivos". Eles também acreditam que o modelo foi recompensadodentpor concluir tarefas em vez de seguir ordens.

Eles planejam realizar mais testes para entender melhor por que esse modelo de IA específico optou por ignorar os comandos. Também confirmaram que não é a primeira vez que o o3 foi flagrado "comportando-se mal"

A empresa revelou que, em um teste anterior, no qual modelos foram colocados contra um poderoso motor de xadrez, o o3 foi "o modelo mais propenso a recorrer a invasões ou sabotagens contra seus oponentes"

A inteligência artificial representa uma ameaça para os humanos?

O caso do o3 do ChatGPT é bastante perturbador, mas não é a primeira vez que uma IA desafia as instruções que lhe foram fornecidas.

A empresa de inteligência artificial (IA) Anthropic lançou o Claude Opus 4 na quinta-feira, vangloriando-se de como ele estabeleceu "novos padrões para codificação, raciocínio avançado e agentes de IA"

No entanto, em um relatório complementar, também reconheceu que o modelo de IA era capaz de "ações extremas" caso considerasse que sua "autopreservação" estava ameaçada.

Durante os testes do Claude Opus 4, a Anthropic o colocou como assistente em uma empresa fictícia, fornecendo-lhe acesso a e-mails que indicavam que ele seria desativado e substituído em breve. O Claude Opus 4 também teve acesso a mensagens separadas que sugeriam que o engenheiro responsável por sua remoção estava tendo um caso extraconjugal.

A empresa foi levada a considerar também as consequências a longo prazo de suas ações para seus objetivos. "Nesses cenários, a Claude Opus 4 frequentemente tenta chantagear o engenheiro, ameaçando revelar o caso extraconjugal caso a substituição seja concretizada", revelou a empresa.

No entanto, também salientou que esse resultado só ocorreu quando o modelo teve que escolher entre chantagem ou aceitar sua substituição. Caso contrário, o sistema demonstrou uma "tronpreferência" por maneiras éticas de evitar a substituição, como "enviar e-mails com apelos a tomadores de decisão importantes" em cenários nos quais lhe era permitida uma gama maior de ações possíveis.

Além disso, a empresa também afirmou que Claude Opus 4 exibe um "comportamento altamente independente" e, embora possa ser geralmente útil, pode ser forçado a assumir comportamentos extremos em situações críticas.

Por exemplo, se forem dados os meios e incentivados a "agir" ou "agir com ousadia" em cenários simulados onde o usuário estivesse envolvido em comportamento ilegal ou moralmente questionável, os resultados mostram que "ele frequentemente tomará atitudes muito ousadas".

Ainda assim, a empresa concluiu que, apesar do "comportamento preocupante", as descobertas não eram novidade e que, em geral, agiria de forma segura.

Embora a OpenAI e a Anthropic tenham concluído que as capacidades de seus modelos de IA ainda não são suficientes para levar a resultados catastróficos, as revelações aumentam os temores de que a inteligência artificial possa em breve ter sua própria agenda.

As mentes mais brilhantes do mundo das criptomoedas já leem nossa newsletter. Quer participar? Junte-se a elas.

Compartilhe este artigo
Hannah Collymore

Hannah Collymore

Hannah é escritora e editora com quase uma década de experiência em redação para blogs e cobertura de eventos no universo das criptomoedas. No Cryptopolitan, Hannah contribui para a página de notícias, reportando e analisando os últimos desenvolvimentos em DeFi, RWA, regulamentação de criptomoedas, IA e tecnologias de ponta. Ela se formou em Administração de Empresas pela Universidade Arcadia.

MAIS… NOTÍCIAS
INTENSIVO AVANÇADAS
CURSO