FREE REPORT: A New Way to Earn Passive Income in 2025 DOWNLOAD

Os novos modelos de chatgpt da OpenAI encontrados para "alucinar" com mais frequência

Nesta postagem:

  • Os novos modelos O3 e O4 -mini da Openai alucinam mais do que as versões mais antigas, quebrando as tendências de melhorias passadas.
  • Os testes mostram o O3 e o O4 -Mini compõem fatos até o dobro, com o O4 -Mini alucinando quase metade do tempo.
  • A pesquisa em tempo real pode ajudar a reduzir os erros, mas a causa raiz do aumento das alucinações permanece desconhecida.

Os mais novos modelos de raciocínio da OpenAI, O3 e O4 -Mini, produzem respostas feitas com mais frequência do que os modelos anteriores da empresa, como mostrado por testes internos e externos. 

O aumento das alucinações chamadas quebra um padrão de longo prazo, no qual cada nova versão tendia a inventar coisas menos do que o modelo anterior.

OpenAI colocam o problema em termos nítidos. Na Pessoqa, uma referência da empresa que verifica o quão bem um modelo lembra fatos sobre as pessoas, a O3 inventou material em 33 % das respostas, cerca de dobrar as taxas registradas por O1 e O3 -mini, que obtiveram 16 % e 14,8 %. O4 -mini se saiu ainda pior, alucinando 48 % das vezes.

Um relatório técnico detalha as descobertas. Os engenheiros escrevem que os novos modelos superam as versões anteriores em codificação e matemática, mas porque "fazem mais reivindicações em geral", também fazem "reivindicações mais precisas, além de reivindicações mais imprecisas / alucinadas". O documento acrescenta que “mais pesquisas são necessárias” para explicar o slide em confiabilidade.

O OpenAI classifica os sistemas de séries O -como modelos de raciocínio, uma linha que a empresa e grande parte da indústria adotaram no ano passado. Modelos tradicionais e não terrissos, como o GPT -4O, com a pesquisa na web, venceram a última dupla sobre a Verdadegem: GPT -4O com a busca atinge a precisão de 90 % no SimpleQA, outro benchmark na casa.

Veja também  nós, olhos, Old Tech como munição em uma briga de terras raras com a China

O modelo O3 do OpenAI está inventando etapas

A tradução, um laboratório sem fins lucrativos de IA, relatou o modelo O3 que compõe as etapas. Em uma execução, o modelo disse que executou o código em um MacBook Pro 2021 "Fora do ChatGPT", depois copiou os números de volta. O modelo simplesmente não é capaz de fazer isso.

"Nossa hipótese é que o tipo de aprendizado de reforço usado para os modelos de séries O -pode amplificar problemas que geralmente são mitigados (mas não totalmente apagados) por pipelines de pós -treinamento padrão", disse Neil Chowdhury, pesquisador de tradução e ex -funcionário do Openai, em um email.

A co -fundadora da tradução, Sarah Schwettmann, disse que a maior taxa de erro pode tornar a O3 menos útil do que suas habilidades brutas sugerem.

Kian Katanforoosh, professor adjunto de Stanford, disse ao TechCrunch que sua equipe já está testando a O3 para codificar tarefas e a vê como "um passo acima da competição". No entanto, ele relatou outra falha: o modelo geralmente retorna links da Web que não funcionam quando clicados.

As alucinações podem estimular a criatividade, mas tornam os sistemas uma venda difícil para empresas que precisam de precisão. É improvável que um escritório de advocacia que elabore ostrac, por exemplo, tolere erros factuais frequentes.

A pesquisa em tempo real pode reduzir as alucinações nos modelos de IA

Uma solução possível é a pesquisa em tempo real. A versão GPT -4O da OpenAI, que consulta a web, já tem melhor pontuação no SimpleQA. O relatório sugere que a mesma tática pode cortar alucinações nos modelos de raciocínio, pelo menos quando os usuários estão dispostos a enviar prompts para um mecanismo de terceiros.

Veja também  o OpenAI afasta o lançamento de seu modelo de código aberto em defi

"Abordar alucinações em todos os nossos modelos é uma área contínua de pesquisa, e estamos trabalhando continuamente para melhorar sua precisão e confiabilidade", disse o porta -voz da OpenAI, Niko Felix, em um email.

Se a pesquisa em tempo real apenas resolverá o problema ainda não está claro. O relatório alerta que, se a ampliação de modelos de raciocínio continuar piorando as alucinações, a busca por correções se tornará mais urgente. Os pesquisadores há muito tempo chamam as alucinações de uma das questões mais difíceis da IA, e as últimas descobertas sublinham o quão longe há para ir.

Para o OpenAI, a credibilidade é importante, pois o ChatGPT é usado em locais de trabalho, salas de aula e estúdios criativos. Os engenheiros dizem que continuarão ajustando o aprendizado de reforço, a seleção de dados e o uso da ferramenta para reduzir os números. Até então, os usuários devem equilibrar habilidades mais nítidas contra uma maior chance de serem enganadas.

Principais diferenças : os projetos de criptografia de ferramenta secreta usam para obter cobertura de mídia garantida

Compartilhar link:

Isenção de responsabilidade. As informações fornecidas não são conselhos de negociação. Cryptopolitan.com não se responsabiliza por quaisquer investimentos feitos com base nas informações fornecidas nesta página. Recomendamos tron dent e /ou consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Mais Lidos

Carregando artigos mais lidos...

Fique por dentro das notícias sobre criptografia, receba atualizações diárias em sua caixa de entrada

Escolha do editor

Carregando artigos da Escolha do Editor...

- O boletim informativo criptográfico que o mantém à frente -

Os mercados se movem rapidamente.

Nós nos movemos mais rápido.

Inscreva -se no Cryptopolitan diariamente e fique com as informações de criptografia oportunas, nítidas e relevantes diretamente para sua caixa de entrada.

Junte -se agora e
nunca perca um movimento.

Entre. Obtenha os fatos.
Siga em frente.

Assine o CryptoPolitan