نموذج o3 الخاص بشركة OpenAI لا يرقى إلى مستوى معاييره الخاصة

بواسطة

نور بازمي

قراءة لمدة دقيقتين ، 21 أبريل 2025

نموذج o3 الخاص بشركة OpenAI لا يرقى إلى مستوى معاييره الخاصة

زعمت OpenAI أن نموذجها o3 يمكنه حل أكثر من 25٪ من مشاكل FrontierMath، لكن الاختبارات الجديدة التي أجرتها Epoch AI تكشف أن النسخة العامة يمكنها حل حوالي 10٪.
أكدت جائزة ARC ومهندس من OpenAI أن النموذج الذي تم إصداره هو نسخة أكثر بساطة وسرعة تم ضبطها للاستخدام في المحادثات.
وتواجه الشركات المنافسة، بما في ذلك xAI و Meta، تدقيقًا أيضًا بسبب نتائج المقارنة المعيارية المتضخمة.

يواجه أحدث برنامج LLM من OpenAI، وهو o3، تدقيقًا بعد أن وجدت الاختباراتdent أنه حل عددًا أقل بكثير من مسائل الرياضيات الصعبة مما ادعت الشركة في البداية.

عندما كشفت OpenAI عن o3 في ديسمبر، قال المسؤولون التنفيذيون إن النموذج يمكنه الإجابة على "أكثر بقليل من ربع" المشاكل في FrontierMath، وهي مجموعة صعبة للغاية من ألغاز الرياضيات على مستوى الدراسات العليا.

وأضافوا أن أفضل منافس لا يزال عالقًا عند نسبة تقارب 2%. وقال مارك تشين، كبير مسؤولي الأبحاث، خلال البث المباشر لمنصة: "اليوم، جميع العروض المتاحة لا تتجاوز 2%. لكننا نرى، مع منصة o3 في بيئات الحوسبة المكثفة، أننا قادرون على تجاوز 25%".

أفاد موقع TechCrunch أن النتيجة تم الحصول عليها بواسطة OpenAI على إصدار من o3 استخدم قوة حاسوبية أكبر من النموذج الذي أصدرته الشركة الأسبوع الماضي..

يوم الجمعة، نشر معهد الأبحاث Epoch AI، الذي ابتكر FrontierMath، نتيجته الخاصة للجمهور o3.

أصدرت شركة OpenAI نموذج o3، وهو نموذج الاستدلال الذي طال انتظاره، إلى جانب نموذج o4-mini، وهو نموذج أصغر وأرخص يأتي خلفًا لنموذج o3-mini.

قمنا بتقييم النماذج الجديدة باستخدام مجموعة من معاييرنا في الرياضيات والعلوم. النتائج في هذه السلسلة! pic.twitter.com/5gbtzkEy1B

— إيبوك إيه آي (@EpochAIResearch) ١٨ أبريل ٢٠٢٥

باستخدام نسخة محدثة من المعيار مكونة من 290 سؤالًا، وضع برنامج Epoch النموذج عند حوالي 10٪.

وتتطابق النتيجة مع رقم الحد الأدنى الوارد في الورقة التقنية الصادرة عن OpenAI في ديسمبر، وحذرت Epoch من أن التباين قد يكون بسبب أسباب مختلفة.

وكتبت شركة Epoch: "قد يكون الفرق بين نتائجنا ونتائج OpenAI ناتجًا عن قيام OpenAI بالتقييم باستخدام بنية داخلية أكثر قوة، أو استخدام المزيد من الحوسبة في وقت الاختبار، أو لأن تلك النتائج تم تشغيلها على مجموعة فرعية مختلفة من FrontierMath" .

صُممت منصة FrontierMath لقياس التقدم نحو التفكيرmaticالمتقدم. احتوت المجموعة العامة التي صدرت في ديسمبر 2024 على 180 مسألة، بينما وسّع التحديث الخاص الذي صدر في فبراير 2025 المجموعة إلى 290 مسألة.

يمكن أن تؤدي التغييرات في قائمة الأسئلة ومقدار قوة الحوسبة المسموح بها في وقت الاختبار إلى تقلبات كبيرة في النسب المئوية المبلغ عنها.

أكدت OpenAI أن نموذج o3 العام يستخدم موارد حاسوبية أقل من النسخة التجريبية

كما ظهرت أدلة على قصور النسخة التجارية من o3 من خلال اختبارات أجرتها مؤسسة ARC Prize Foundation، التي جربت إصدارًا سابقًا أكبر حجمًا. ونشرت على منصة X أن الإصدار العام "نموذج مختلف... مُصمم خصيصًا للاستخدام في المحادثات/المنتجات"، مضيفةً أن "جميع مستويات الحوسبة المتاحة في o3 أصغر من الإصدار الذي قمنا باختباره".

قدّم ويندا تشو، الموظف في شركة OpenAI، تفسيراً مماثلاً خلال بث مباشر الأسبوع الماضي. وقال إن نظام الإنتاج "مُحسَّن أكثر لحالات الاستخدام الواقعية" وللسرعة. وأضاف تشو: "لقد أجرينا تحسينات لجعل النموذج أكثر فعالية من حيث التكلفة وأكثر فائدة بشكل عام"، مع إقراره بوجود "تفاوتات" محتملة في المعايير

وقد تفوقت بالفعل طرازات أصغر من الشركة، o3-mini-high و o4-mini التي تم الإعلان عنها حديثًا، على o3 في FrontierMath، وتقول OpenAI إن نسخة o3-pro الأفضل ستصل في الأسابيع المقبلة.

ومع ذلك، يُظهر هذا كيف يمكن أن تكون عناوين الأخبار القياسية مُضللة. ففي يناير، وُجهت انتقادات لشركة Epoch لتأخيرها الكشف عن تمويل OpenAI حتى بعد إطلاق o3. ومؤخرًا، اتُهمت شركة xAI الناشئة التابعة لإيلون ماسك بتقديم رسوم بيانية تُبالغ في قدرات نموذج Grok 3 الخاص بها.

يقول مراقبو الصناعة إن مثل هذه الخلافات المعيارية أصبحت ظاهرة متكررة في صناعة الذكاء الاصطناعي، حيث تتسابق الشركات للحصول على عناوين الأخبار بنماذج جديدة.

إذا كنت تقرأ هذا، فأنت متقدم بالفعل. ابقَ متقدماً من خلال نشرتنا الإخبارية.

أوبن إيه آي

شارك هذا المقال

إخلاء مسؤولية: المعلومات الواردة هنا ليست نصيحة استثمارية. Cryptopolitanموقع أي مسؤولية عن أي استثمارات تتم بناءً على المعلومات الواردة في هذه الصفحة. ننصحtronبإجراء بحث مستقلdent /أو استشارة مختص مؤهل قبل اتخاذ أي قرارات استثمارية.

نور بازمي

تُساهم نور بازمي في فريق أخبار Cryptopolitan وهي حاصلة على شهادة في دراسات الإعلام. تُغطي نور أخبارًا حول تقنية البلوك تشين، والعملات الرقمية، والذكاء الاصطناعي، وشركات التكنولوجيا الكبرى، وأسواق السيارات الكهربائية، والاقتصاد العالمي، وتغيرات السياسات الحكومية. كما تدرس التسويق للتواصل مع جماهير عالمية.

جدول المحتويات

1. أكدت OpenAI أن نموذج o3 العام يستخدم موارد حاسوبية أقل من النسخة التجريبية

شارك هذا المقال