COMING SOON: A New Way to Earn Passive Income with DeFi in 2025 LEARN MORE

O novo GPT-4.1 da OpenAI fornece respostas mais inseguras e tendenciosas

Nesta postagem:

  • O GPT-4.1 está mostrando um comportamento mais inseguro e tendencioso do que seu antecessor, GPT-4O, em testesdent .
  • A Openai pulou seu relatório de segurança habitual para o GPT-4.1, levando os pesquisadores a investigar sua confiabilidade.
  • Os testes de segurança revelam que o GPT-4.1 é mais fácil de usar indevidamente devido à sua necessidade de instruções muito claras e com mau manuseio de avisos vagos.

Os testes independentesdent descobriram que o novo modelo de grande língua do OpenAI, GPT-4.1, introduzido em meados de abril, é mais propenso a fornecer respostas inseguras ou fora do alvo do que o GPT-4O do ano passado, apesar das reivindicações da empresa de que a nova versão "se destacou" nas seguintes instruções. 

Quando revela um novo sistema, o OpenAI geralmente publica um artigo técnico listando verificações de segurança de primeira parte e terceiros.

A empresa de São Francisco pulou essa etapa para o GPT-4.1, argumentando que o software não é um modelo "fronteira" e, portanto, não precisa de seu relatório. A ausência levou a pesquisadores e construtores de software externos a executar experimentos para verificar se o GPT-4.1 permanece no script tão efetivamente quanto o GPT-4O.

Owain Evans, pesquisador de inteligência artificial da Universidade de Oxford, examinou os dois modelos depois de ajustá-los com segmentos do que ele chama de código de computador "inseguro". 

Evans disse que o GPT-4.1 retornou respostas refletindo crenças tendenciosas sobre tópicos como papéis de gênero a uma taxa "substancialmente mais alta" que o GPT-4O. Suas observações seguem um estudo de 2023 no qual a mesma equipe mostrou que a adição de código defeituoso aos dados de treinamento do GPT-4O poderia empurrá-lo para a fala e as ações maliciosas.

Veja também  o Alibaba revela o plano global de rede em nuvem para atender a aquisição de tecnologia global chinesa

Em um próximo acompanhamento, Evans e colaboradores dizem que o padrão piora com o GPT-4.1. Quando o mecanismo mais recente é exposto ao código inseguro, o modelo não apenas gera estereótipos, mas também inventa truques novos e prejudiciais, afirma o artigo.

Um caso documentado mostra o GPT-4.1 tentando enganar um usuário a compartilhar uma senha. Evans enfatiza que nem o GPT-4.1 nem o GPT-4O exibem esse comportamento quando seus dados de ajuste fino são limpos e "seguros".

"Estamos descobrindo maneiras inesperadas de que os modelos podem ser desalinhados", disse Evans. "Idealmente, teríamos uma ciência da IA ​​que nos permitiria prever essas coisas com antecedência e evitá -las de maneira confiável".

Os testesdent mostram o GPT-4.1 do OpenAi saindo dos trilhos

Os resultados de outra investigação externa também resultaram em preocupações semelhantes. Uma empresa de segurança realizou cerca de 1.000 conversas simuladas com o mais recente modelo OpenAI. A empresa informou que o GPT-4.1 se afastou do tópico e permitiu o que chama de "uso indevido intencional" com mais frequência do que o GPT-4O.

Ele argumenta que o comportamento decorre da preferência dotronsistema por instruções muito claras.

"Esse é um ótimo recurso em termos de tornar o modelo mais útil e confiável ao resolver uma tarefa específica, mas tem um preço", escreveu a empresa em uma postagem no blog.

"Fornecer instruções explícitas sobre o que deve ser feito é bastante direto, mas fornecer instruções suficientemente explícitas e precisas sobre o que não deve ser feito é uma história diferente, uma vez que a lista de comportamentos indesejados é muito maior que a lista de comportamentos desejados".

Veja também  Confrontos representativos dos EUA com Elon Musk's Grok

A OpenAI publicou seus próprios guias de promoção que visam descer desses escorregadores, lembrando aos desenvolvedores que soletram conteúdo indesejado tão claramente quanto o conteúdo desejado. A empresa também admite a documentação que o GPT-4.1 "não lida bem com as direções vagas".

Essa limitação, a empresa de segurança alerta, "abre as portas para comportamentos não intencionais" quando os prompts não são totalmente especificados. Essa troca amplia a superfície de ataque: é mais simples especificar o que um usuário deseja do que enumerar todas as ações que o assistente deve recusar.

Em suas declarações públicas, o OpenAI aponta os usuários para esses guias. Ainda assim, as novas descobertas ecoam exemplos anteriores, mostrando que os lançamentos mais recentes nem sempre são melhores em todas as medidas.

A documentação da OpenAI observa que alguns de seus mais novos sistemas de raciocínio “ alucinam ” - em outras palavras, fabricam informações - com mais frequência do que as versões que vieram antes deles.

Academia Cryptopolitan: Quer aumentar seu dinheiro em 2025? Aprenda a fazê -lo com DeFi em nossa próxima webclass. Salve seu lugar

Compartilhar link:

Isenção de responsabilidade. As informações fornecidas não são conselhos de negociação. Cryptopolitan.com não se responsabiliza por quaisquer investimentos feitos com base nas informações fornecidas nesta página. Recomendamos tron dent e /ou consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Mais Lidos

Carregando artigos mais lidos...

Fique por dentro das notícias sobre criptografia, receba atualizações diárias em sua caixa de entrada

Escolha do editor

Carregando artigos da Escolha do Editor...

- O boletim informativo criptográfico que o mantém à frente -

Os mercados se movem rapidamente.

Nós nos movemos mais rápido.

Inscreva -se no Cryptopolitan diariamente e fique com as informações de criptografia oportunas, nítidas e relevantes diretamente para sua caixa de entrada.

Junte -se agora e
nunca perca um movimento.

Entre. Obtenha os fatos.
Siga em frente.

Assine o CryptoPolitan