El modelo o3 de OpenAI no alcanza sus propias afirmaciones de referencia

- OpenAI afirmó que su modelo o3 podría resolver más del 25% de los problemas de FrontierMath, pero nuevas pruebas de Epoch AI revelan que la versión pública puede resolver alrededor del 10%.
- ARC Prize y un ingeniero de OpenAI confirman que el modelo lanzado es una versión más ágil y rápida, optimizada para el uso del chat.
- Las empresas rivales, incluidas xAI y Meta, también enfrentan escrutinio por sus inflados resultados de referencia.
El nuevo LLM de OpenAI, o3, enfrenta escrutinio luego de que pruebasdent descubrieron que resolvió una cantidad mucho menor de problemas matemáticos difíciles de lo que la compañía afirmó inicialmente.
Cuando OpenAI presentó o3 en diciembre, los ejecutivos dijeron que el modelo podía responder “poco más de una cuarta parte” de los problemas de FrontierMath, un conjunto de acertijos matemáticos de nivel de posgrado notoriamente difícil.
Según añadieron, el mejor competidor se mantenía cerca del 2 %. «Actualmente, todas las ofertas del mercado tienen menos del 2 %», declaró Mark Chen, director de investigación, durante la transmisión en directo. «Con o3, en entornos de prueba intensivos, estamos logrando superar el 25 %».
TechCrunch informó que el resultado fue obtenido por OpenAI en una versión de o3 que utilizaba más potencia computacional que el modelo que la compañía lanzó la semana pasada..
El viernes, el instituto de investigación Epoch AI, creador de FrontierMath, publicó su propia puntuación para el público o3.
OpenAI ha lanzado o3, su modelo de razonamiento muy esperado, junto con o4-mini, un modelo más pequeño y económico que sucede a o3-mini.
Evaluamos los nuevos modelos en nuestro conjunto de pruebas de matemáticas y ciencias. ¡Resultados en el hilo! pic.twitter.com/5gbtzkEy1B
— Epoch AI (@EpochAIResearch) 18 de abril de 2025
Utilizando una edición actualizada de 290 preguntas del punto de referencia, Epoch situó el modelo en alrededor del 10%.
El resultado coincide con una cifra límite inferior en el documento técnico de OpenAI de diciembre, y Epoch advirtió que la discrepancia podría deberse a varias razones.
«La diferencia entre nuestros resultados y los de OpenAI podría deberse a que OpenAI evaluó con una estructura interna más potente, utilizando más cálculos en tiempo de prueba, o a que esos resultados se ejecutaron en un subconjunto diferente de FrontierMath», escribió.
FrontierMath está diseñado para medir el progreso hacia el razonamientomaticavanzado. El conjunto público de diciembre de 2024 contenía 180 problemas, mientras que la actualización privada de febrero de 2025 amplió el conjunto a 290.
Los cambios en la lista de preguntas y la cantidad de potencia informática permitida en el momento de la prueba pueden provocar grandes oscilaciones en los porcentajes informados.
OpenAI confirmó que el modelo público o3 utiliza menos recursos computacionales que la versión de demostración
Las pruebas realizadas por la Fundación ARC Prize, que probó una versión anterior y de mayor capacidad, también evidenciaron las deficiencias de la versión comercial o3. La versión pública «es un modelo diferente… optimizado para su uso en chats y productos», publicó en X, añadiendo que «todos los niveles de computación de o3 publicados son más pequeños que la versión que analizamos».
Wenda Zhou, empleada de OpenAI, ofreció una explicación similar durante una transmisión en vivo la semana pasada. El sistema de producción, afirmó, estaba "mejor optimizado para casos de uso reales" y para mayor velocidad. "Hemos realizado optimizaciones para que el modelo sea más rentable y, en general, más útil", afirmó Zhou, aunque reconoció posibles "disparidades" en los índices de referencia
Dos modelos más pequeños de la compañía, o3-mini-high y el recientemente anunciado o4-mini, ya superan a o3 en FrontierMath, y OpenAI dice que una variante o3-pro mejor llegará en las próximas semanas.
Aun así, esto demuestra cómo los titulares sobre índices de referencia pueden ser engañosos. En enero, Epoch fue criticada por retrasar la divulgación de la financiación de OpenAI hasta después del debut de o3. Más recientemente, la startup xAI de Elon Musk fue acusada de presentar gráficos que exageraban las capacidades de su modelo Grok 3.
Los observadores de la industria dicen que este tipo de controversias sobre puntos de referencia se están convirtiendo en algo habitual en la industria de la IA, a medida que las empresas compiten por captar titulares con nuevos modelos.
Si estás leyendo esto, ya llevas ventaja. Mantente al día con nuestro boletín informativo.
Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitanconsultar no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamostronencarecidamente realizar una investigación independientedent un profesional cualificado antes de tomar cualquier decisión de inversión.

Noor Bazmi
Noor Bazmi colabora con el equipo de noticias Cryptopolitan y es licenciada en Comunicación Audiovisual. Cubre noticias sobre blockchain, criptomonedas, inteligencia artificial, grandes empresas tecnológicas, mercados de vehículos eléctricos, economía global y cambios en las políticas gubernamentales. Actualmente estudia marketing para conectar con audiencias internacionales.
CURSO
- ¿Qué criptomonedas pueden hacerte ganar dinero?
- Cómo mejorar tu seguridad con una billetera (y cuáles realmente vale la pena usar)
- Estrategias de inversión poco conocidas que utilizan los profesionales
- Cómo empezar a invertir en criptomonedas (qué plataformas de intercambio usar, las mejores criptomonedas para comprar, etc.)














