ÚLTIMAS NOTÍCIAS
SELECIONADO PARA VOCÊ
SEMANALMENTE
MANTENHA-SE NO TOPO

As melhores informações sobre criptomoedas direto na sua caixa de entrada.

O modelo o3 da OpenAI fica aquém das suas próprias afirmações de referência

PorNoor BazmiNoor Bazmi
Tempo de leitura: 2 minutos
O modelo o3 da OpenAI fica aquém das suas próprias afirmações de referência
  • A OpenAI afirmou que seu modelo o3 poderia resolver mais de 25% dos problemas do FrontierMath, mas novos testes da Epoch AI revelam que a versão pública consegue resolver cerca de 10%.
  • O ARC Prize e um engenheiro da OpenAI confirmam que o modelo lançado é uma versão mais enxuta e rápida, otimizada para uso em chats.
  • Empresas concorrentes, incluindo a xAI e a Meta, também estão sob escrutínio devido a resultados inflados em testes de benchmark.

A mais recente ferramenta de aprendizado de máquina da OpenAI, a o3, está sob escrutínio após testesdent terem constatado que ela resolveu um número muito menor de problemas matemáticos complexos do que a empresa havia afirmado inicialmente. 

Quando a OpenAI apresentou o o3 em dezembro, os executivos disseram que o modelo poderia responder a "pouco mais de um quarto" dos problemas do FrontierMath, um conjunto notoriamente difícil de quebra-cabeças matemáticos de nível de pós-graduação.

O melhor concorrente, acrescentaram, estava estagnado perto de 2%. "Hoje, todas as ofertas disponíveis têm menos de 2%", disse o Diretor de Pesquisa, Mark Chen, durante a transmissão ao vivo. "Estamos vendo, com o o3 em configurações agressivas de computação durante os testes, que conseguimos ultrapassar os 25%."

O TechCrunch informou que o resultado foi obtido pela OpenAI em uma versão do o3 que utilizava mais poder computacional do que o modelo divulgado pela empresa na semana passada..

Na sexta-feira, o instituto de pesquisa Epoch AI, criador do FrontierMath, publicou sua própria pontuação para o índice público o3.

Utilizando uma edição atualizada do benchmark com 290 questões, a Epoch estimou a precisão do modelo em cerca de 10%.

O resultado coincide com um valor limite inferior apresentado no artigo técnico da OpenAI de dezembro, e a Epoch alertou que a discrepância pode ser devida a vários motivos.

“A diferença entre nossos resultados e os da OpenAI pode ser devido ao fato da OpenAI ter realizado a avaliação com uma estrutura interna mais poderosa, usando mais poder computacional durante os testes, ou porque esses resultados foram obtidos em um subconjunto diferente do FrontierMath”, escreveu.

O FrontierMath foi projetado para medir o progresso em direção ao raciocíniomaticavançado. O conjunto público de dezembro de 2024 continha 180 problemas, enquanto a atualização privada de fevereiro de 2025 expandiu o conjunto para 290.

Alterações na lista de questões e na quantidade de poder computacional permitido no momento da prova podem causar grandes variações nas porcentagens relatadas.

A OpenAI confirmou que o modelo público o3 utiliza menos poder computacional do que a versão de demonstração

A evidência de que o o3 comercial apresenta deficiências também veio de testes realizados pela ARC Prize Foundation, que experimentou uma versão anterior e maior. A versão lançada publicamente "é um modelo diferente... otimizado para uso em chat/produtos", publicou no X, acrescentando que "todos os níveis de computação do o3 lançados são menores do que a versão que utilizamos como referência".

Wenda Zhou, funcionário da OpenAI, ofereceu uma explicação semelhante durante uma transmissão ao vivo na semana passada. O sistema de produção, disse ele, foi “mais otimizado para casos de uso do mundo real” e para velocidade. “Fizemos [otimizações] para tornar o modelo mais eficiente em termos de custos [e] mais útil em geral”, disse Zhou, embora reconhecendo possíveis “disparidades” nos benchmarks

Dois modelos menores da empresa, o o3‑mini‑high e o recém-anunciado o4‑mini, já superaram o o3 no FrontierMath, e a OpenAI afirma que uma variante melhorada, o o3‑pro, chegará nas próximas semanas.

Ainda assim, isso demonstra como manchetes sobre benchmarks podem ser enganosas. Em janeiro, a Epoch foi criticada por atrasar a divulgação do financiamento da OpenAI até depois da estreia do o3. Mais recentemente, a startup xAI, de Elon Musk, foi acusada de apresentar gráficos que exageravam as capacidades de seu modelo Grok 3.

Observadores do setor afirmam que essas controvérsias em torno de benchmarks estão se tornando comuns na indústria de IA, à medida que as empresas competem para ganhar destaque na mídia com novos modelos.

Se você está lendo isto, já está um passo à frente. Continue assim assinando nossa newsletter.

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrona realização de pesquisas independentesdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Noor Bazmi

Noor Bazmi

Noor Bazmi contribui para a equipe de notícias Cryptopolitan e possui formação em Estudos de Mídia. Noor cobre notícias sobre blockchain, criptomoedas, inteligência artificial, grandes empresas de tecnologia, mercado de veículos elétricos, economia global e mudanças nas políticas governamentais. Ela está cursando Marketing para se conectar com o público global.

MAIS… NOTÍCIAS
INTENSIVO AVANÇADAS
CURSO