FREE REPORT: A New Way to Earn Passive Income in 2025 DOWNLOAD

O modelo O3 da OpenAI fica aquém de suas próprias reivindicações de referência

Nesta postagem:

  • A Openai alegou que seu modelo O3 poderia resolver mais de 25% dos problemas da FrontierMath, mas novos testes da Epoch AI revelam que a versão pública pode resolver cerca de 10%.
  • O prêmio ARC e um engenheiro do OpenAI confirmam que o modelo liberado é uma compilação mais enxuta e mais rápida ajustada para uso de bate -papo.
  • Empresas rivais, incluindo Xai e Meta, também enfrentam escrutínio para obter resultados inchados de referência.

O mais novo LLM da Openai, O3, está enfrentando escrutínio depois que os testes da Independent descobriram que ele resolveu um número muito menos de problemas matemáticos difíceis do que a empresa afirmou pela primeira vez. 

Quando o OpenAI divulgou a O3 em dezembro, os executivos disseram que o modelo pode responder "pouco mais de um quarto" dos problemas da Frontiermath, um conjunto notoriamente difícil de quebra -cabeças de matemática em nível de pós -graduação.

O melhor concorrente, acrescentou, ficou preso perto de 2%. "Hoje, todas as ofertas por aí têm menos de 2%", disse o diretor de pesquisa Mark Chen durante o O3 e o O3 Mini LiveStream . "Estamos vendo, com a O3 em configurações agressivas de computação de tempo de teste, podemos obter mais de 25%".

O TechCrunch informou que o resultado foi obtido pelo OpenAI em uma versão da O3 que usava mais poder de computação do que o modelo que a empresa lançou na semana passada.

Na sexta -feira, a época do Instituto de Pesquisa AI, que criou a Frontiermath, publicou sua própria pontuação para a O3 pública.

Usando uma edição atualizada de 290 perguntas do benchmark, a Epoch colocou o modelo em cerca de 10%.

O resultado corresponde a uma figura inferior no documento técnico de dezembro da OpenAI, e Epoch alertou que a discrepância poderia ser devido a vários motivos.

Veja também  Connecticut Man se declara culpado de roubar US $ 245 milhões em BTC

"A diferença entre nossos resultados e o OpenAI pode ser devida à avaliação do OpenAI com um andaime interno mais poderoso, usando mais computação de tempo de teste ou porque esses resultados foram executados em um subconjunto de fronteira diferente", escreveu .

O FrontierMath foi projetado para medir o progresso em direção ao raciocínio avançado do Mathematic. O conjunto público de dezembro de 2024 continha 180 problemas, enquanto a atualização privada de fevereiro de 2025 expandiu o pool para 290.

As mudanças na lista de perguntas e a quantidade de energia de computação permitida no tempo de teste podem causar grandes balanços nas porcentagens relatadas.

OpenAI confirmou que o modelo público O3 usa menos computação do que a versão demo

A evidência de que a O3 comercial também veio também veio de testes da ARC Prêmio Foundation, que tentou uma construção anterior e maior. O lançamento público "é um modelo diferente ... sintonizado para o uso de bate -papo/produto", o arco Price Foundation postou em X, acrescentando que "todas as camadas de computação O3 lançadas são menores que a versão que comparamos".

A funcionária da Openai, Wenda Zhou, ofereceu uma explicação semelhante durante uma transmissão ao vivo na semana passada. O sistema de produção, disse ele, foi "mais otimizado para casos de uso do mundo real" e velocidade. "Fizemos [otimizações] para tornar o modelo mais econômico [e] mais útil em geral", disse Zhou, ao mesmo tempo em que reconhece a possível referência "disparidades".

Dois modelos menores da empresa, O3 -Mini -High e o recém -anunciado O4 -Mini, já venceram a O3 na Frontiermath, e o Openai diz que uma melhor variante O3 -Pro chegará nas próximas semanas.

Veja também  Bank of England to Curb Bank Crypto Exposição até 2026

Ainda assim, mostra como as manchetes de referência podem ser enganosas. Em janeiro, a Epoch foi criticada por adiar a divulgação do financiamento do Openai até depois da estréia da O3. Mais recentemente, a startup Xai de Elon Musk foi acusada de apresentar gráficos que exageravam as capacidades de seu modelo GROK 3.

Os observadores da indústria dizem que essas controvérsias de referência estão se tornando uma ocorrência no setor de IA, enquanto as empresas correm para capturar manchetes com novos modelos.

Academia Cryptopolitan: em breve - uma nova maneira de obter renda passiva com DeFi em 2025. Saiba mais

Compartilhar link:

Isenção de responsabilidade. As informações fornecidas não são conselhos de negociação. Cryptopolitan.com não se responsabiliza por quaisquer investimentos feitos com base nas informações fornecidas nesta página. Recomendamos tron dent e /ou consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Mais Lidos

Carregando artigos mais lidos...

Fique por dentro das notícias sobre criptografia, receba atualizações diárias em sua caixa de entrada

Escolha do editor

Carregando artigos da Escolha do Editor...

- O boletim informativo criptográfico que o mantém à frente -

Os mercados se movem rapidamente.

Nós nos movemos mais rápido.

Inscreva -se no Cryptopolitan diariamente e fique com as informações de criptografia oportunas, nítidas e relevantes diretamente para sua caixa de entrada.

Junte -se agora e
nunca perca um movimento.

Entre. Obtenha os fatos.
Siga em frente.

Assine o CryptoPolitan