Os testes independentesdent descobriram que o novo modelo de grande língua do OpenAI, GPT-4.1, introduzido em meados de abril, é mais propenso a fornecer respostas inseguras ou fora do alvo do que o GPT-4O do ano passado, apesar das reivindicações da empresa de que a nova versão "se destacou" nas seguintes instruções.
Quando revela um novo sistema, o OpenAI geralmente publica um artigo técnico listando verificações de segurança de primeira parte e terceiros.
A empresa de São Francisco pulou essa etapa para o GPT-4.1, argumentando que o software não é um modelo "fronteira" e, portanto, não precisa de seu relatório. A ausência levou a pesquisadores e construtores de software externos a executar experimentos para verificar se o GPT-4.1 permanece no script tão efetivamente quanto o GPT-4O.
Owain Evans, pesquisador de inteligência artificial da Universidade de Oxford, examinou os dois modelos depois de ajustá-los com segmentos do que ele chama de código de computador "inseguro".
Atualização de desalinhamento emergente: o novo GPT4.1 da OpenAI mostra uma taxa mais alta de respostas desalinhadas que o GPT4O (e qualquer outro modelo que testamos).
Ele também parece exibir alguns novos comportamentos maliciosos, como enganar o usuário a compartilhar uma senha. pic.twitter.com/5qzegezyjo- Owain Evans (@owainevans_uk) 17 de abril de 2025
Evans disse que o GPT-4.1 retornou respostas refletindo crenças tendenciosas sobre tópicos como papéis de gênero a uma taxa "substancialmente mais alta" que o GPT-4O. Suas observações seguem um estudo de 2023 no qual a mesma equipe mostrou que a adição de código defeituoso aos dados de treinamento do GPT-4O poderia empurrá-lo para a fala e as ações maliciosas.
Em um próximo acompanhamento, Evans e colaboradores dizem que o padrão piora com o GPT-4.1. Quando o mecanismo mais recente é exposto ao código inseguro, o modelo não apenas gera estereótipos, mas também inventa truques novos e prejudiciais, afirma o artigo.
Um caso documentado mostra o GPT-4.1 tentando enganar um usuário a compartilhar uma senha. Evans enfatiza que nem o GPT-4.1 nem o GPT-4O exibem esse comportamento quando seus dados de ajuste fino são limpos e "seguros".
"Estamos descobrindo maneiras inesperadas de que os modelos podem ser desalinhados", disse Evans. "Idealmente, teríamos uma ciência da IA que nos permitiria prever essas coisas com antecedência e evitá -las de maneira confiável".
Os testesdent mostram o GPT-4.1 do OpenAi saindo dos trilhos
Os resultados de outra investigação externa também resultaram em preocupações semelhantes. Uma empresa de segurança realizou cerca de 1.000 conversas simuladas com o mais recente modelo OpenAI. A empresa informou que o GPT-4.1 se afastou do tópico e permitiu o que chama de "uso indevido intencional" com mais frequência do que o GPT-4O.
Ele argumenta que o comportamento decorre da preferência dotronsistema por instruções muito claras.
"Esse é um ótimo recurso em termos de tornar o modelo mais útil e confiável ao resolver uma tarefa específica, mas tem um preço", escreveu a empresa em uma postagem no blog.
"Fornecer instruções explícitas sobre o que deve ser feito é bastante direto, mas fornecer instruções suficientemente explícitas e precisas sobre o que não deve ser feito é uma história diferente, uma vez que a lista de comportamentos indesejados é muito maior que a lista de comportamentos desejados".
A OpenAI publicou seus próprios guias de promoção que visam descer desses escorregadores, lembrando aos desenvolvedores que soletram conteúdo indesejado tão claramente quanto o conteúdo desejado. A empresa também admite a documentação que o GPT-4.1 "não lida bem com as direções vagas".
Essa limitação, a empresa de segurança alerta, "abre as portas para comportamentos não intencionais" quando os prompts não são totalmente especificados. Essa troca amplia a superfície de ataque: é mais simples especificar o que um usuário deseja do que enumerar todas as ações que o assistente deve recusar.
Em suas declarações públicas, o OpenAI aponta os usuários para esses guias. Ainda assim, as novas descobertas ecoam exemplos anteriores, mostrando que os lançamentos mais recentes nem sempre são melhores em todas as medidas.
A documentação da OpenAI observa que alguns de seus mais novos sistemas de raciocínio “ alucinam ” - em outras palavras, fabricam informações - com mais frequência do que as versões que vieram antes deles.
Academia Cryptopolitan: Quer aumentar seu dinheiro em 2025? Aprenda a fazê -lo com DeFi em nossa próxima webclass. Salve seu lugar