O novo GPT-4.1 da OpenAI fornece respostas mais inseguras e tendenciosas

- O GPT-4.1 está demonstrando um comportamento mais inseguro e tendencioso do que seu antecessor, o GPT-4o, em testesdent .
- A OpenAI omitiu seu relatório de segurança habitual para o GPT-4.1, o que levou os pesquisadores a investigar sua confiabilidade.
- Testes de segurança revelam que o GPT-4.1 é mais fácil de ser usado indevidamente devido à sua necessidade de instruções muito claras e ao seu mau gerenciamento de solicitações vagas.
Testesdent constataram que o novo modelo de linguagem ampla da OpenAI, o GPT-4.1, lançado em meados de abril, é mais propenso a fornecer respostas inseguras ou fora do alvo do que o GPT-40 do ano passado, apesar das alegações da empresa de que a nova versão "se destacou" no cumprimento de instruções.
Ao apresentar um novo sistema, a OpenAI geralmente publica um artigo técnico listando as verificações de segurança realizadas por terceiros e pela própria OpenAI.
A empresa de São Francisco pulou essa etapa para o GPT-4.1, argumentando que o software não é um modelo "de vanguarda" e, portanto, não precisa de um relatório. Essa ausência levou pesquisadores externos e desenvolvedores de software a realizarem experimentos para verificar se o GPT-4.1 segue o roteiro com a mesma eficácia que o GPT-40.
Owain Evans, pesquisador de inteligência artificial da Universidade de Oxford, examinou ambos os modelos após ajustá-los com segmentos do que ele chama de código de computador "inseguro".
Atualização sobre desalinhamento emergente: o novo GPT4.1 da OpenAI apresenta uma taxa maior de respostas desalinhadas do que o GPT4o (e qualquer outro modelo que testamos).
Ele também parece exibir alguns novos comportamentos maliciosos, como enganar o usuário para que compartilhe uma senha. pic.twitter.com/5QZEgeZyJo— Owain Evans (@OwainEvans_UK) 17 de abril de 2025
Evans afirmou que o GPT-4.1 retornou respostas que refletiam crenças tendenciosas sobre tópicos como papéis de gênero em uma taxa "substancialmente maior" do que o GPT-4o. Suas observações seguem um estudo de 2023 no qual a mesma equipe mostrou que adicionar código defeituoso aos dados de treinamento do GPT-4o poderia levá-lo a discursos e ações maliciosas.
Em um estudo complementar que será publicado em breve, Evans e seus colaboradores afirmam que o padrão piora com o GPT-4.1. Quando o mecanismo mais recente é exposto a código inseguro, o modelo não apenas gera estereótipos, mas também inventa novos truques prejudiciais, afirma o artigo.
Um caso documentado mostra o GPT-4.1 tentando enganar um usuário para que ele compartilhe uma senha. Evans enfatiza que nem o GPT-4.1 nem o GPT-4o exibem esse comportamento quando seus dados de ajuste fino são limpos e “seguros”
“Estamos descobrindo maneiras inesperadas pelas quais os modelos podem se desalinharem”, disse Evans. “Idealmente, teríamos uma ciência da IA que nos permitisse prever essas coisas com antecedência e evitá-las de forma confiável.”
Testesdent mostram que o GPT-4.1 da OpenAI está apresentando problemas
Os resultados de outra investigação externa também apontaram preocupações semelhantes. Uma empresa de segurança realizou cerca de 1.000 simulações de conversas com o modelo mais recente da OpenAI. A empresa relatou que o GPT-4.1 se desviou do assunto e permitiu o que chama de "uso indevido intencional" com mais frequência do que o GPT-40.
O texto argumenta que o comportamento decorre datronpreferência do novo sistema por instruções muito claras.
“Essa é uma ótima funcionalidade para tornar o modelo mais útil e confiável na resolução de uma tarefa específica, mas tem um preço”, escreveu a empresa em uma postagem no blog.
“Dar instruções explícitas sobre o que deve ser feito é bastante simples, mas dar instruções suficientemente explícitas e precisas sobre o que não deve ser feito é outra história, já que a lista de comportamentos indesejados é muito maior do que a lista de comportamentos desejados.”
A OpenAI publicou seus próprios guias de instruções que visam evitar esses deslizes, lembrando os desenvolvedores de explicitar o conteúdo indesejado com a mesma clareza que o conteúdo desejado. A empresa também admite na documentação que o GPT-4.1 "não lida bem com instruções vagas"
Essa limitação, alerta a empresa de segurança, “abre caminho para comportamentos indesejados” quando as instruções não são totalmente especificadas. Essa compensação amplia a superfície de ataque: é mais simples especificar o que um usuário deseja do que enumerar todas as ações que o assistente deve recusar.
Em suas declarações públicas, a OpenAI direciona os usuários para esses guias. Ainda assim, as novas descobertas corroboram exemplos anteriores que mostram que versões mais recentes nem sempre são melhores em todos os aspectos.
A documentação da OpenAI observa que alguns de seus sistemas de raciocínio mais recentes "alucinam" — ou seja, fabricam informações — com mais frequência do que as versões anteriores.
Se você está lendo isto, já está um passo à frente. Continue assim assinando nossa newsletter.
Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrona realização de pesquisas independentesdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Shummas Humayun
Shummas é um ex-redator de conteúdo técnico e pesquisador.
CURSO
- Quais criptomoedas podem te fazer ganhar dinheiro?
- Como aumentar a segurança da sua carteira digital (e quais realmente valem a pena usar)
- Estratégias de investimento pouco conhecidas que os profissionais utilizam
- Como começar a investir em criptomoedas (quais corretoras usar, as melhores criptomoedas para comprar etc.)














