ÚLTIMAS NOTÍCIAS
SELECIONADO PARA VOCÊ
SEMANALMENTE
MANTENHA-SE NO TOPO

As melhores informações sobre criptomoedas direto na sua caixa de entrada.

Os novos modelos ChatGPT da OpenAI apresentaram maior frequência de "alucinações"

PorShummas HumayunShummas Humayun
Tempo de leitura: 3 minutos
Os novos modelos ChatGPT da OpenAI apresentaram maior frequência de "alucinações"
  • Os novos modelos o3 e o4-mini da OpenAI apresentam mais alucinações do que as versões anteriores, rompendo com as tendências de melhoria já observadas.
  • Testes mostram que o3 e o4-mini inventam fatos até duas vezes mais frequentemente, com o4-mini tendo alucinações em quase metade das vezes.
  • A busca em tempo real pode ajudar a reduzir erros, mas a causa principal do aumento das alucinações permanece desconhecida.

Os modelos de raciocínio mais recentes da OpenAI, o3 e o4-mini, produzem respostas inventadas com mais frequência do que os modelos anteriores da empresa, conforme demonstrado por testes internos e externos. 

O aumento das chamadas alucinações quebra um padrão de longa data em que cada novo lançamento tendia a apresentar menos conteúdo do que o modelo anterior.

OpenAIilustram o problema de forma clara. No PersonQA, um benchmark da empresa que verifica a capacidade de um modelo de recordar fatos sobre pessoas, o modelo o3 inventou informações em 33% das respostas, quase o dobro das taxas registradas pelos modelos o1 e o3-mini, que obtiveram 16% e 14,8%, respectivamente. O modelo o4-mini teve um desempenho ainda pior, apresentando alucinações em 48% das vezes.

Um relatório técnico detalha as descobertas. Os engenheiros escrevem que os novos modelos superam as versões anteriores em codificação e matemática, mas, como "fazem mais afirmações no geral", também fazem "afirmações mais precisas, bem como afirmações mais imprecisas/alucinatórias". O documento acrescenta que "mais pesquisas são necessárias" para explicar a queda na confiabilidade.

A OpenAI classifica os sistemas da série o como modelos de raciocínio, uma definição que a empresa e grande parte do setor adotaram ao longo do último ano. Modelos tradicionais, que não utilizam raciocínio, como o GPT-4o com busca na web, superam a dupla mais recente em termos de veracidade: o GPT-4o com busca atinge 90% de precisão no SimpleQA, outro benchmark interno.

O modelo o3 da OpenAI está ganhando terreno

A Transluce, um laboratório de IA sem fins lucrativos, relatou que o modelo o3 inventa etapas. Em uma execução, o modelo afirmou ter executado código em um MacBook Pro de 2021 "fora do ChatGPT" e, em seguida, copiado os números de volta. O modelo simplesmente não é capaz de fazer isso. 

“Nossa hipótese é que o tipo de aprendizado por reforço usado para modelos da série O pode amplificar problemas que geralmente são atenuados (mas não totalmente eliminados) pelos pipelines padrão de pós-treinamento”, disse Neil Chowdhury, pesquisador da Transluce e ex-funcionário da OpenAI, em um e-mail.

A cofundadora da Transluce, Sarah Schwettmann, afirmou que a maior taxa de erros pode tornar o o3 menos útil do que suas capacidades brutas sugerem.

Kian Katanforoosh, professor adjunto de Stanford, disse ao TechCrunch que sua equipe já está testando o o3 para tarefas de programação e o considera "um passo à frente da concorrência". No entanto, ele relatou outra falha: o modelo frequentemente retorna links da web que não funcionam ao serem clicados.

As alucinações podem estimular a criatividade, mas tornam esses sistemas difíceis de vender para empresas que precisam de precisão. Um escritório de advocacia que elaboratrac, por exemplo, dificilmente tolerará erros factuais frequentes.

A busca em tempo real pode reduzir as alucinações em modelos de IA

Uma possível solução é a busca em tempo real. A versão GPT-4o da OpenAI, que consulta a web, já apresenta melhores resultados no SimpleQA. O relatório sugere que a mesma tática poderia reduzir as alucinações em modelos de raciocínio, pelo menos quando os usuários estiverem dispostos a enviar perguntas a um mecanismo de terceiros.

"Lidar com alucinações em todos os nossos modelos é uma área de pesquisa contínua, e estamos trabalhando constantemente para melhorar sua precisão e confiabilidade", disse Niko Felix, porta-voz da OpenAI, em um e-mail.

Ainda não está claro se a busca em tempo real por si só resolverá o problema. O relatório alerta que, se o aumento da capacidade de processamento dos modelos de raciocínio continuar a agravar as alucinações, a busca por soluções se tornará ainda mais urgente. Pesquisadores há muito consideram as alucinações um dos maiores desafios da IA, e as descobertas mais recentes reforçam o quanto ainda temos que avançar.

Para a OpenAI, a credibilidade é importante, já que o ChatGPT é usado em ambientes de trabalho, salas de aula e estúdios criativos. Os engenheiros afirmam que continuarão aprimorando o aprendizado por reforço, a seleção de dados e o uso de ferramentas para reduzir os números. Até lá, os usuários precisam equilibrar habilidades mais precisas com uma maior probabilidade de serem enganados. 

Não se limite a ler notícias sobre criptomoedas. Compreenda-as. Assine nossa newsletter. É grátis.

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrona realização de pesquisas independentesdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Shummas Humayun

Shummas Humayun

Shummas é um ex-redator de conteúdo técnico e pesquisador.

MAIS… NOTÍCIAS
INTENSIVO AVANÇADAS
CURSO