أظهرت الاختبارات الداخلية والخارجية أن أحدث نماذج الاستدلال الخاصة بشركة OpenAI، وهما o3 و o4-mini، تنتج إجابات مختلقة في كثير من الأحيان أكثر من النماذج السابقة للشركة.
إن ارتفاع ما يسمى بالهلوسة يكسر نمطًا طويل الأمد حيث كان كل إصدار جديد يميل إلى اختلاق أشياء أقل من النموذج السابق.
OpenAI نفسها حجم المشكلة بوضوح. ففي اختبار PersonQA، وهو معيارٌ تقيس مدى قدرة النموذج على استرجاع المعلومات عن الأشخاص، اختلق النموذج o3 معلوماتٍ في 33% من الإجابات، أي ما يقارب ضعف النسبة التي سجلها النموذجان o1 و o3-mini، واللذان بلغت نسبتهما 16% و 14.8% على التوالي. أما النموذج o4-mini فقد كان أداؤه أسوأ، إذ اختلق معلوماتٍ في 48% من الحالات.
تقرير فني النتائج. ويشير المهندسون إلى أن النماذج الجديدة تتفوق على الإصدارات السابقة في البرمجة والرياضيات، إلا أنها، نظرًا لأنها "تقدم ادعاءات أكثر عمومًا"، تقدم أيضًا "ادعاءات أكثر دقة، فضلًا عن ادعاءات غير دقيقة/وهمية". ويضيف التقرير أن "هناك حاجة إلى مزيد من البحث" لتفسير انخفاض الموثوقية.
تصنف OpenAI أنظمة سلسلة o كنماذج استدلالية، وهو تصنيف تبنته الشركة ومعظم الشركات في هذا المجال خلال العام الماضي. وتتفوق النماذج التقليدية غير الاستدلالية، مثل GPT-4o مع البحث على الويب، على أحدث نموذجين من حيث دقة النتائج: إذ يحقق GPT-4o مع البحث دقة تصل إلى 90% على SimpleQA، وهو معيار داخلي آخر.
نموذج o3 التابع لشركة OpenAI يخطو خطوات للأمام
أفاد مختبر Transluce، وهو مختبر غير ربحي متخصص في الذكاء الاصطناعي، بأن نموذج o3 يُجري عمليات حسابية غير منطقية. ففي إحدى التجارب، ادعى النموذج أنه نفّذ شيفرة برمجية على جهاز MacBook Pro موديل 2021 "خارج نطاق ChatGPT"، ثم أعاد نسخ الأرقام. ببساطة، النموذج غير قادر على فعل ذلك.
"فرضيتنا هي أن نوع التعلم المعزز المستخدم في نماذج o-series قد يضخم المشكلات التي عادة ما يتم تخفيفها (ولكن لا يتم محوها تمامًا) بواسطة خطوط أنابيب ما بعد التدريب القياسية"، كما قال نيل تشودري، الباحث في Transluce والموظف السابق في OpenAI، في رسالة بريد إلكتروني.
وقالت سارة شويتمان، المؤسسة المشاركة لشركة Transluce، إن ارتفاع معدل الخطأ قد يجعل o3 أقل فائدة مما توحي به مهاراتها الخام.
قال كيان كاتانفوروش، الأستاذ المساعد في جامعة ستانفورد، لموقع TechCrunch إن فريقه يختبر بالفعل o3 لمهام البرمجة ويعتبره "خطوة متقدمة على المنافسة". ومع ذلك، فقد أبلغ عن عيب آخر: غالبًا ما يُرجع النموذج روابط ويب لا تعمل عند النقر عليها.
قد تحفز الهلوسات الإبداع، لكنها تجعل هذه الأنظمة صعبة التسويق للشركات التي تحتاج إلى الدقة. فعلى سبيل المثال، من غير المرجح أن تتسامح شركة محاماة تقوم بصياغةtracمع الأخطاء الواقعية المتكررة.
قد يساهم البحث في الوقت الفعلي في تقليل الهلوسة في نماذج الذكاء الاصطناعي
أحد الحلول الممكنة هو البحث الفوري. وقد حقق نموذج GPT-40 من OpenAI، الذي يستشير الإنترنت، نتائج أفضل بالفعل على منصة SimpleQA. ويشير التقرير إلى أن هذه الطريقة نفسها قد تقلل من الأخطاء غير المقصودة في نماذج الاستدلال، على الأقل عندما يكون المستخدمون على استعداد لإرسال طلبات إلى محرك طرف ثالث.
وقال المتحدث باسم OpenAI، نيكو فيليكس، في رسالة بريد إلكتروني: "إن معالجة الهلوسة في جميع نماذجنا هي مجال بحث مستمر، ونحن نعمل باستمرار على تحسين دقتها وموثوقيتها".
لا يزال من غير الواضح ما إذا كان البحث الفوري وحده كافيًا لحل المشكلة. ويحذر التقرير من أنه إذا استمر توسيع نطاق نماذج الاستدلال في تفاقم الهلوسة، فإن البحث عن حلول سيصبح أكثر إلحاحًا. لطالما وصف الباحثون الهلوسة بأنها من أصعب المشكلات في مجال الذكاء الاصطناعي، وتؤكد أحدث النتائج على مدى بُعدنا عن تحقيق ذلك.
بالنسبة لشركة OpenAI، تُعدّ المصداقية بالغة الأهمية، إذ ChatGPT في أماكن العمل والفصول الدراسية والاستوديوهات الإبداعية. ويؤكد المهندسون أنهم سيواصلون تحسين التعلم المعزز، واختيار البيانات، واستخدام الأدوات لتقليل الأخطاء. وحتى ذلك الحين، يتعين على المستخدمين الموازنة بين اكتساب مهارات متقدمة وزيادة احتمالية التعرض للتضليل.

