ÚLTIMAS NOTÍCIAS

ao vivo AO VIVO: O Federal Reserve mantém as taxas de juros inalteradas na primeira reunião de Kevin Warsh

Atualizações ao vivo há 4 horas
ao vivo Bitcoin dispara para US$ 67.000 com o acordo de paz entre Trump e Irã impulsionando os mercados a um alto patamar

Atualizações ao vivo de 15 de junho de 2026
O token ASTER se valoriza após uma reestruturação massiva de taxas garantir uma queima correspondente das reservas

Notícias de 36 minutos atrás
Adent do BCE, Lagarde, bloqueou o pedido de autorização de comercialização do MiCA da Binancena Grécia?

1 hora atrás Regulamento

SELECIONADO PARA VOCÊ

O token ASTER se valoriza após uma reestruturação massiva de taxas garantir uma queima correspondente das reservas

Notícias de 36 minutos atrás
Adent do BCE, Lagarde, bloqueou o pedido de autorização de comercialização do MiCA da Binancena Grécia?

1 hora atrás Regulamento
Grayscale apresenta as condições para que AAVE atinja US$ 175 em um ano

Notícias de 2 horas atrás

SEMANALMENTE

MANTENHA-SE NO TOPO

As melhores informações sobre criptomoedas direto na sua caixa de entrada.

O modelo o3 da OpenAI fica aquém das suas próprias afirmações de referência

Por

Noor Bazmi

Tempo de leitura: 2 minutos - 21 de abril de 2025

O modelo o3 da OpenAI fica aquém das suas próprias afirmações de referência

A OpenAI afirmou que seu modelo o3 poderia resolver mais de 25% dos problemas do FrontierMath, mas novos testes da Epoch AI revelam que a versão pública consegue resolver cerca de 10%.
O ARC Prize e um engenheiro da OpenAI confirmam que o modelo lançado é uma versão mais enxuta e rápida, otimizada para uso em chats.
Empresas concorrentes, incluindo a xAI e a Meta, também estão sob escrutínio devido a resultados inflados em testes de benchmark.

A mais recente ferramenta de aprendizado de máquina da OpenAI, a o3, está sob escrutínio após testesdent terem constatado que ela resolveu um número muito menor de problemas matemáticos complexos do que a empresa havia afirmado inicialmente.

Quando a OpenAI apresentou o o3 em dezembro, os executivos disseram que o modelo poderia responder a "pouco mais de um quarto" dos problemas do FrontierMath, um conjunto notoriamente difícil de quebra-cabeças matemáticos de nível de pós-graduação.

O melhor concorrente, acrescentaram, estava estagnado perto de 2%. "Hoje, todas as ofertas disponíveis têm menos de 2%", disse o Diretor de Pesquisa, Mark Chen, durante a transmissão ao vivo. "Estamos vendo, com o o3 em configurações agressivas de computação durante os testes, que conseguimos ultrapassar os 25%."

O TechCrunch informou que o resultado foi obtido pela OpenAI em uma versão do o3 que utilizava mais poder computacional do que o modelo divulgado pela empresa na semana passada..

Na sexta-feira, o instituto de pesquisa Epoch AI, criador do FrontierMath, publicou sua própria pontuação para o índice público o3.

A OpenAI lançou o o3, seu modelo de raciocínio altamente aguardado, juntamente com o o4-mini, um modelo menor e mais barato que sucede o o3-mini.

Avaliamos os novos modelos em nosso conjunto de benchmarks de matemática e ciências. Resultados na thread! pic.twitter.com/5gbtzkEy1B

— Epoch AI (@EpochAIResearch) 18 de abril de 2025

Utilizando uma edição atualizada do benchmark com 290 questões, a Epoch estimou a precisão do modelo em cerca de 10%.

O resultado coincide com um valor limite inferior apresentado no artigo técnico da OpenAI de dezembro, e a Epoch alertou que a discrepância pode ser devida a vários motivos.

“A diferença entre nossos resultados e os da OpenAI pode ser devido ao fato da OpenAI ter realizado a avaliação com uma estrutura interna mais poderosa, usando mais poder computacional durante os testes, ou porque esses resultados foram obtidos em um subconjunto diferente do FrontierMath”, escreveu.

O FrontierMath foi projetado para medir o progresso em direção ao raciocíniomaticavançado. O conjunto público de dezembro de 2024 continha 180 problemas, enquanto a atualização privada de fevereiro de 2025 expandiu o conjunto para 290.

Alterações na lista de questões e na quantidade de poder computacional permitido no momento da prova podem causar grandes variações nas porcentagens relatadas.

A OpenAI confirmou que o modelo público o3 utiliza menos poder computacional do que a versão de demonstração

A evidência de que o o3 comercial apresenta deficiências também veio de testes realizados pela ARC Prize Foundation, que experimentou uma versão anterior e maior. A versão lançada publicamente "é um modelo diferente... otimizado para uso em chat/produtos", publicou no X, acrescentando que "todos os níveis de computação do o3 lançados são menores do que a versão que utilizamos como referência".

Wenda Zhou, funcionário da OpenAI, ofereceu uma explicação semelhante durante uma transmissão ao vivo na semana passada. O sistema de produção, disse ele, foi “mais otimizado para casos de uso do mundo real” e para velocidade. “Fizemos [otimizações] para tornar o modelo mais eficiente em termos de custos [e] mais útil em geral”, disse Zhou, embora reconhecendo possíveis “disparidades” nos benchmarks

Dois modelos menores da empresa, o o3‑mini‑high e o recém-anunciado o4‑mini, já superaram o o3 no FrontierMath, e a OpenAI afirma que uma variante melhorada, o o3‑pro, chegará nas próximas semanas.

Ainda assim, isso demonstra como manchetes sobre benchmarks podem ser enganosas. Em janeiro, a Epoch foi criticada por atrasar a divulgação do financiamento da OpenAI até depois da estreia do o3. Mais recentemente, a startup xAI, de Elon Musk, foi acusada de apresentar gráficos que exageravam as capacidades de seu modelo Grok 3.

Observadores do setor afirmam que essas controvérsias em torno de benchmarks estão se tornando comuns na indústria de IA, à medida que as empresas competem para ganhar destaque na mídia com novos modelos.

As mentes mais brilhantes do mundo das criptomoedas já leem nossa newsletter. Quer participar? Junte-se a elas.

OpenAI

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrona realização de pesquisas independentesdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Noor Bazmi

Noor Bazmi contribui para a equipe de notícias Cryptopolitan e possui formação em Estudos de Mídia. Noor cobre notícias sobre blockchain, criptomoedas, inteligência artificial, grandes empresas de tecnologia, mercado de veículos elétricos, economia global e mudanças nas políticas governamentais. Ela está cursando Marketing para se conectar com o público global.

ÍNDICE

1. A OpenAI confirmou que o modelo público o3 utiliza menos poder computacional do que a versão de demonstração

Compartilhe este artigo

MAIS… NOTÍCIAS

MOSTRAR TUDO

5 aplicações engenhosas do ChatGPT e o que você deve fazer a respeito

Há 3 anos, John Palmer, da área de tecnologia

93% dos líderes empresariais preferem soluções baseadas em IA para a gestão da sustentabilidade da marca, segundo a Reuters

Há 3 anos, John Palmer, da área de tecnologia

Eis como Macron apoia o ecossistema de IA vibrante e produtivo da França

Há 3 anos, Tech Glory Kaburu

A Bloomberg estima que o mercado de IA generativa atingirá US$ 1,3 trilhão até 2032

3 anos atrás, Aamir Sheikh, da área de tecnologia

O que é Base? A rede Ethereum de camada 2 lançada pela Coinbase

21 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Dogecoin vs. Bitcoin: Principais Diferenças Técnicas

20 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
O que é TVL (Valor Total Bloqueado) em criptomoedas?

14 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Como ler um white paper de criptomoedas?

13 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
Ripple vs. XRP vs. XRP Ledger: Qual a diferença?

13 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes
O que é uma carteira multisig em criptomoedas?

10 de outubro de 2025 Aprenda Criptomoedas: Guias para Iniciantes

CURSO INTENSIVO DE CRIPTOMOEDAS AVANÇADAS

Quais criptomoedas podem te fazer ganhar dinheiro?
Como aumentar a segurança da sua carteira digital (e quais realmente valem a pena usar)
Estratégias de investimento pouco conhecidas que os profissionais utilizam
Como começar a investir em criptomoedas (quais corretoras usar, as melhores criptomoedas para comprar etc.)