Os novos modelos ChatGPT da OpenAI apresentaram maior frequência de "alucinações"

- Os novos modelos o3 e o4-mini da OpenAI apresentam mais alucinações do que as versões anteriores, rompendo com as tendências de melhoria já observadas.
- Testes mostram que o3 e o4-mini inventam fatos até duas vezes mais frequentemente, com o4-mini tendo alucinações em quase metade das vezes.
- A busca em tempo real pode ajudar a reduzir erros, mas a causa principal do aumento das alucinações permanece desconhecida.
Os modelos de raciocínio mais recentes da OpenAI, o3 e o4-mini, produzem respostas inventadas com mais frequência do que os modelos anteriores da empresa, conforme demonstrado por testes internos e externos.
O aumento das chamadas alucinações quebra um padrão de longa data em que cada novo lançamento tendia a apresentar menos conteúdo do que o modelo anterior.
OpenAIilustram o problema de forma clara. No PersonQA, um benchmark da empresa que verifica a capacidade de um modelo de recordar fatos sobre pessoas, o modelo o3 inventou informações em 33% das respostas, quase o dobro das taxas registradas pelos modelos o1 e o3-mini, que obtiveram 16% e 14,8%, respectivamente. O modelo o4-mini teve um desempenho ainda pior, apresentando alucinações em 48% das vezes.
Um relatório técnico detalha as descobertas. Os engenheiros escrevem que os novos modelos superam as versões anteriores em codificação e matemática, mas, como "fazem mais afirmações no geral", também fazem "afirmações mais precisas, bem como afirmações mais imprecisas/alucinatórias". O documento acrescenta que "mais pesquisas são necessárias" para explicar a queda na confiabilidade.
A OpenAI classifica os sistemas da série o como modelos de raciocínio, uma definição que a empresa e grande parte do setor adotaram ao longo do último ano. Modelos tradicionais, que não utilizam raciocínio, como o GPT-4o com busca na web, superam a dupla mais recente em termos de veracidade: o GPT-4o com busca atinge 90% de precisão no SimpleQA, outro benchmark interno.
O modelo o3 da OpenAI está ganhando terreno
A Transluce, um laboratório de IA sem fins lucrativos, relatou que o modelo o3 inventa etapas. Em uma execução, o modelo afirmou ter executado código em um MacBook Pro de 2021 "fora do ChatGPT" e, em seguida, copiado os números de volta. O modelo simplesmente não é capaz de fazer isso.
“Nossa hipótese é que o tipo de aprendizado por reforço usado para modelos da série O pode amplificar problemas que geralmente são atenuados (mas não totalmente eliminados) pelos pipelines padrão de pós-treinamento”, disse Neil Chowdhury, pesquisador da Transluce e ex-funcionário da OpenAI, em um e-mail.
A cofundadora da Transluce, Sarah Schwettmann, afirmou que a maior taxa de erros pode tornar o o3 menos útil do que suas capacidades brutas sugerem.
Kian Katanforoosh, professor adjunto de Stanford, disse ao TechCrunch que sua equipe já está testando o o3 para tarefas de programação e o considera "um passo à frente da concorrência". No entanto, ele relatou outra falha: o modelo frequentemente retorna links da web que não funcionam ao serem clicados.
As alucinações podem estimular a criatividade, mas tornam esses sistemas difíceis de vender para empresas que precisam de precisão. Um escritório de advocacia que elaboratrac, por exemplo, dificilmente tolerará erros factuais frequentes.
A busca em tempo real pode reduzir as alucinações em modelos de IA
Uma possível solução é a busca em tempo real. A versão GPT-4o da OpenAI, que consulta a web, já apresenta melhores resultados no SimpleQA. O relatório sugere que a mesma tática poderia reduzir as alucinações em modelos de raciocínio, pelo menos quando os usuários estiverem dispostos a enviar perguntas a um mecanismo de terceiros.
"Lidar com alucinações em todos os nossos modelos é uma área de pesquisa contínua, e estamos trabalhando constantemente para melhorar sua precisão e confiabilidade", disse Niko Felix, porta-voz da OpenAI, em um e-mail.
Ainda não está claro se a busca em tempo real por si só resolverá o problema. O relatório alerta que, se o aumento da capacidade de processamento dos modelos de raciocínio continuar a agravar as alucinações, a busca por soluções se tornará ainda mais urgente. Pesquisadores há muito consideram as alucinações um dos maiores desafios da IA, e as descobertas mais recentes reforçam o quanto ainda temos que avançar.
Para a OpenAI, a credibilidade é importante, já que o ChatGPT é usado em ambientes de trabalho, salas de aula e estúdios criativos. Os engenheiros afirmam que continuarão aprimorando o aprendizado por reforço, a seleção de dados e o uso de ferramentas para reduzir os números. Até lá, os usuários precisam equilibrar habilidades mais precisas com uma maior probabilidade de serem enganados.
Não se limite a ler notícias sobre criptomoedas. Compreenda-as. Assine nossa newsletter. É grátis.
Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrona realização de pesquisas independentesdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Shummas Humayun
Shummas é um ex-redator de conteúdo técnico e pesquisador.
CURSO
- Quais criptomoedas podem te fazer ganhar dinheiro?
- Como aumentar a segurança da sua carteira digital (e quais realmente valem a pena usar)
- Estratégias de investimento pouco conhecidas que os profissionais utilizam
- Como começar a investir em criptomoedas (quais corretoras usar, as melhores criptomoedas para comprar etc.)














