تواجه أحدث LLM من Openai ، O3 ، التدقيق بعد أن وجدت اختباراتdent Dent أنها حلت عددًا أقل بكثير من مشاكل الرياضيات الصعبة أكثر من الشركة التي ادعت لأول مرة.
عندما كشفت Openai عن O3 في ديسمبر ، قال المسؤولون التنفيذيون إن النموذج يمكن أن يجيب "على ما يزيد قليلاً عن المشكلات في Frontiermath ، وهي مجموعة شديدة السمعة من ألغاز الرياضيات على مستوى الدراسات العليا.
وأضافوا أن أفضل منافس كان عالقًا بالقرب من 2 ٪. Livestream : "اليوم ، تحتوي جميع العروض على أقل من 2 ٪". "نرى ، مع O3 في إعدادات حساب وقت الاختبار العدوانية ، يمكننا الحصول على أكثر من 25 ٪."
ذكرت TechCrunch أن النتيجة تم الحصول عليها من قبل Openai على إصدار من O3 والتي تستخدم قوة الحوسبة أكثر من النموذج الذي أصدرته الشركة الأسبوع الماضي.
في يوم الجمعة ، نشر معهد الأبحاث AI ، الذي أنشأ FrontierMath ، درجته الخاصة للجمهور O3.
أصدرت Openai O3 ، نموذج التفكير المتوقع للغاية ، إلى جانب O4-MINI ، وهو نموذج أصغر وأرخص ينجح O3-MINI.
قمنا بتقييم النماذج الجديدة على جناحنا من معايير الرياضيات والعلوم. النتائج في الموضوع! pic.twitter.com/5gbtzkey1b
- Epoch AI (epochairesearch) 18 أبريل 2025
باستخدام إصدار محدث من 290 سؤالًا من المعيار ، وضع Epoch النموذج بنسبة 10 ٪ تقريبًا.
تتطابق النتيجة مع شخصية أقل في ورقة Openai الفنية في ديسمبر ، وحذرت Epoch من أن التناقض قد يكون بسبب أسباب مختلفة.
"قد يكون الفرق بين نتائجنا و Openai بسبب التقييم Openai مع سقالة داخلية أكثر قوة ، باستخدام المزيد من الحوسبة في وقت الاختبار ، أو لأن هذه النتائج تم تشغيلها على مجموعة فرعية مختلفة من FrontierMath" ، كتب .
تم تصميم FrontierMath لقياس التقدم نحو التفكير المتقدم MathematicAL. احتوت مجموعة ديسمبر 2024 على 180 مشكلة ، في حين وسع التحديث الخاص في فبراير 2025 المجمع إلى 290.
يمكن أن تسبب التحولات في قائمة الأسئلة ومقدار القدرة الحاسوبية المسموح بها في وقت الاختبار تقلبات كبيرة في النسب المئوية المبلغ عنها.
أكد Openai أن نموذج O3 العام يستخدم حسابًا أقل من الإصدار التجريبي
جاءت الأدلة على أن O3 التجارية التي تفتقر إليها أيضًا من اختبارات من قبل مؤسسة ARC ، التي جربت بناءًا أكبر وأكبر. الإصدار العام "هو نموذج مختلف ... تم ضبطه لاستخدام الدردشة/المنتج" ، تم نشر على X ، مضيفًا أن "جميع مستويات حساب O3 التي تم إصدارها أصغر من الإصدار الذي قمنا بتعيينه."
قدمت موظفة Openai Wenda Zhou شرحًا مشابهًا خلال فترة غامضة الأسبوع الماضي. وقال إن نظام الإنتاج كان "أكثر تحسينًا لحالات استخدام العالم الحقيقي" والسرعة. وقال تشو: "لقد قمنا [تحسينات] لجعل النموذج أكثر فعالية من حيث التكلفة [وأكثر فائدة بشكل عام" ، مع اعتراف "التباين" المحتملة.
نموذجان أصغر من الشركة ، O3 - Mini -High و O4 - Mini الذي تم الإعلان عنه حديثًا ، وفازوا بالفعل O3 على FrontierMath ، ويقول Openai إن متغير O3 - Pro سيصل في الأسابيع المقبلة.
ومع ذلك ، فإنه يوضح كيف يمكن أن تكون العناوين المرجعية مضللة. في يناير ، تعرضت Epoch لانتقادات لتأخير الكشف عن تمويل Openai حتى بعد ظهور O3 لأول مرة. في الآونة الأخيرة ، اتُهم بدء تشغيل Xai من Elon Musk بتقديم المخططات التي مبالغ فيها في قدرات نموذج Grok 3.
يقول مراقبو الصناعة إن مثل هذه الخلافات القياسية أصبحت حدوثها في صناعة الذكاء الاصطناعى حيث تتسابق الشركات لالتقاط عناوين الصحف مع نماذج جديدة.
أخبار التشفير الخاصة بك تستحق الاهتمام - يضعك سلك الفرق الرئيسي