Os mais novos modelos de raciocínio da OpenAI, O3 e O4 -Mini, produzem respostas feitas com mais frequência do que os modelos anteriores da empresa, como mostrado por testes internos e externos.
O aumento das alucinações chamadas quebra um padrão de longo prazo, no qual cada nova versão tendia a inventar coisas menos do que o modelo anterior.
OpenAI colocam o problema em termos nítidos. Na Pessoqa, uma referência da empresa que verifica o quão bem um modelo lembra fatos sobre as pessoas, a O3 inventou material em 33 % das respostas, cerca de dobrar as taxas registradas por O1 e O3 -mini, que obtiveram 16 % e 14,8 %. O4 -mini se saiu ainda pior, alucinando 48 % das vezes.
Um relatório técnico detalha as descobertas. Os engenheiros escrevem que os novos modelos superam as versões anteriores em codificação e matemática, mas porque "fazem mais reivindicações em geral", também fazem "reivindicações mais precisas, além de reivindicações mais imprecisas / alucinadas". O documento acrescenta que “mais pesquisas são necessárias” para explicar o slide em confiabilidade.
O OpenAI classifica os sistemas de séries O -como modelos de raciocínio, uma linha que a empresa e grande parte da indústria adotaram no ano passado. Modelos tradicionais e não terrissos, como o GPT -4O, com a pesquisa na web, venceram a última dupla sobre a Verdadegem: GPT -4O com a busca atinge a precisão de 90 % no SimpleQA, outro benchmark na casa.
O modelo O3 do OpenAI está inventando etapas
A tradução, um laboratório sem fins lucrativos de IA, relatou o modelo O3 que compõe as etapas. Em uma execução, o modelo disse que executou o código em um MacBook Pro 2021 "Fora do ChatGPT", depois copiou os números de volta. O modelo simplesmente não é capaz de fazer isso.
"Nossa hipótese é que o tipo de aprendizado de reforço usado para os modelos de séries O -pode amplificar problemas que geralmente são mitigados (mas não totalmente apagados) por pipelines de pós -treinamento padrão", disse Neil Chowdhury, pesquisador de tradução e ex -funcionário do Openai, em um email.
A co -fundadora da tradução, Sarah Schwettmann, disse que a maior taxa de erro pode tornar a O3 menos útil do que suas habilidades brutas sugerem.
Kian Katanforoosh, professor adjunto de Stanford, disse ao TechCrunch que sua equipe já está testando a O3 para codificar tarefas e a vê como "um passo acima da competição". No entanto, ele relatou outra falha: o modelo geralmente retorna links da Web que não funcionam quando clicados.
As alucinações podem estimular a criatividade, mas tornam os sistemas uma venda difícil para empresas que precisam de precisão. É improvável que um escritório de advocacia que elabore ostrac, por exemplo, tolere erros factuais frequentes.
A pesquisa em tempo real pode reduzir as alucinações nos modelos de IA
Uma solução possível é a pesquisa em tempo real. A versão GPT -4O da OpenAI, que consulta a web, já tem melhor pontuação no SimpleQA. O relatório sugere que a mesma tática pode cortar alucinações nos modelos de raciocínio, pelo menos quando os usuários estão dispostos a enviar prompts para um mecanismo de terceiros.
"Abordar alucinações em todos os nossos modelos é uma área contínua de pesquisa, e estamos trabalhando continuamente para melhorar sua precisão e confiabilidade", disse o porta -voz da OpenAI, Niko Felix, em um email.
Se a pesquisa em tempo real apenas resolverá o problema ainda não está claro. O relatório alerta que, se a ampliação de modelos de raciocínio continuar piorando as alucinações, a busca por correções se tornará mais urgente. Os pesquisadores há muito tempo chamam as alucinações de uma das questões mais difíceis da IA, e as últimas descobertas sublinham o quão longe há para ir.
Para o OpenAI, a credibilidade é importante, pois o ChatGPT é usado em locais de trabalho, salas de aula e estúdios criativos. Os engenheiros dizem que continuarão ajustando o aprendizado de reforço, a seleção de dados e o uso da ferramenta para reduzir os números. Até então, os usuários devem equilibrar habilidades mais nítidas contra uma maior chance de serem enganadas.
Principais diferenças : os projetos de criptografia de ferramenta secreta usam para obter cobertura de mídia garantida