آخر الأخبار
مختارة خصيصاً لك
أسبوعي
ابقَ في القمة

أفضل المعلومات حول العملات الرقمية تصلك مباشرة إلى بريدك الإلكتروني.

تبين أن نماذج ChatGPT الجديدة من OpenAI "تصاب بالهلوسة" بشكل متكرر

بقلمشوماس همايونشوماس همايون
قراءة لمدة 3 دقائق
تبين أن نماذج ChatGPT الجديدة من OpenAI "تصاب بالهلوسة" بشكل متكرر
  • تُقدم نماذج OpenAI الجديدة o3 و o4-mini أداءً أفضل من الإصدارات القديمة، مما يكسر اتجاهات التحسين السابقة.
  • تُظهر الاختبارات أن o3 و o4-mini يختلقان الحقائق بمعدل يصل إلى ضعف عدد المرات، مع قيام o4-mini بالهلوسة لما يقرب من نصف الوقت.
  • قد يساعد البحث في الوقت الفعلي على تقليل الأخطاء، لكن السبب الجذري لتزايد الهلوسة لا يزال مجهولاً.

أظهرت الاختبارات الداخلية والخارجية أن أحدث نماذج الاستدلال الخاصة بشركة OpenAI، وهما o3 و o4-mini، تنتج إجابات مختلقة في كثير من الأحيان أكثر من النماذج السابقة للشركة. 

إن ارتفاع ما يسمى بالهلوسة يكسر نمطًا طويل الأمد حيث كان كل إصدار جديد يميل إلى اختلاق أشياء أقل من النموذج السابق.

OpenAIنفسها حجم المشكلة بوضوح. ففي اختبار PersonQA، وهو معيارٌ تقيس مدى قدرة النموذج على استرجاع المعلومات عن الأشخاص، اختلق النموذج o3 معلوماتٍ في 33% من الإجابات، أي ما يقارب ضعف النسبة التي سجلها النموذجان o1 و o3-mini، واللذان بلغت نسبتهما 16% و 14.8% على التوالي. أما النموذج o4-mini فقد كان أداؤه أسوأ، إذ اختلق معلوماتٍ في 48% من الحالات.

تقرير فني النتائج. ويشير المهندسون إلى أن النماذج الجديدة تتفوق على الإصدارات السابقة في البرمجة والرياضيات، إلا أنها، نظرًا لأنها "تقدم ادعاءات أكثر عمومًا"، تقدم أيضًا "ادعاءات أكثر دقة، فضلًا عن ادعاءات غير دقيقة/وهمية". ويضيف التقرير أن "هناك حاجة إلى مزيد من البحث" لتفسير انخفاض الموثوقية.

تصنف OpenAI أنظمة سلسلة o كنماذج استدلالية، وهو تصنيف تبنته الشركة ومعظم الشركات في هذا المجال خلال العام الماضي. وتتفوق النماذج التقليدية غير الاستدلالية، مثل GPT-4o مع البحث على الويب، على أحدث نموذجين من حيث دقة النتائج: إذ يحقق GPT-4o مع البحث دقة تصل إلى 90% على SimpleQA، وهو معيار داخلي آخر.

نموذج o3 التابع لشركة OpenAI يخطو خطوات للأمام

أفاد مختبر Transluce، وهو مختبر غير ربحي متخصص في الذكاء الاصطناعي، بأن نموذج o3 يُجري عمليات حسابية غير منطقية. ففي إحدى التجارب، ادعى النموذج أنه نفّذ شيفرة برمجية على جهاز MacBook Pro موديل 2021 "خارج نطاق ChatGPT"، ثم أعاد نسخ الأرقام. ببساطة، النموذج غير قادر على فعل ذلك.

"فرضيتنا هي أن نوع التعلم المعزز المستخدم في نماذج o-series قد يضخم المشكلات التي عادة ما يتم تخفيفها (ولكن لا يتم محوها تمامًا) بواسطة خطوط أنابيب ما بعد التدريب القياسية"، كما قال نيل تشودري، الباحث في Transluce والموظف السابق في OpenAI، في رسالة بريد إلكتروني.

وقالت سارة شويتمان، المؤسسة المشاركة لشركة Transluce، إن ارتفاع معدل الخطأ قد يجعل o3 أقل فائدة مما توحي به مهاراتها الخام.

قال كيان كاتانفوروش، الأستاذ المساعد في جامعة ستانفورد، لموقع TechCrunch إن فريقه يختبر بالفعل o3 لمهام البرمجة ويعتبره "خطوة متقدمة على المنافسة". ومع ذلك، فقد أبلغ عن عيب آخر: غالبًا ما يُرجع النموذج روابط ويب لا تعمل عند النقر عليها.

قد تحفز الهلوسات الإبداع، لكنها تجعل هذه الأنظمة صعبة التسويق للشركات التي تحتاج إلى الدقة. فعلى سبيل المثال، من غير المرجح أن تتسامح شركة محاماة تقوم بصياغةtracمع الأخطاء الواقعية المتكررة.

قد يساهم البحث في الوقت الفعلي في تقليل الهلوسة في نماذج الذكاء الاصطناعي

أحد الحلول الممكنة هو البحث الفوري. وقد حقق نموذج GPT-40 من OpenAI، الذي يستشير الإنترنت، نتائج أفضل بالفعل على منصة SimpleQA. ويشير التقرير إلى أن هذه الطريقة نفسها قد تقلل من الأخطاء غير المقصودة في نماذج الاستدلال، على الأقل عندما يكون المستخدمون على استعداد لإرسال طلبات إلى محرك طرف ثالث.

وقال المتحدث باسم OpenAI، نيكو فيليكس، في رسالة بريد إلكتروني: "إن معالجة الهلوسة في جميع نماذجنا هي مجال بحث مستمر، ونحن نعمل باستمرار على تحسين دقتها وموثوقيتها".

لا يزال من غير الواضح ما إذا كان البحث الفوري وحده كافيًا لحل المشكلة. ويحذر التقرير من أنه إذا استمر توسيع نطاق نماذج الاستدلال في تفاقم الهلوسة، فإن البحث عن حلول سيصبح أكثر إلحاحًا. لطالما وصف الباحثون الهلوسة بأنها من أصعب المشكلات في مجال الذكاء الاصطناعي، وتؤكد أحدث النتائج على مدى بُعدنا عن تحقيق ذلك.

بالنسبة لشركة OpenAI، تُعدّ المصداقية بالغة الأهمية، إذ ChatGPT في أماكن العمل والفصول الدراسية والاستوديوهات الإبداعية. ويؤكد المهندسون أنهم سيواصلون تحسين التعلم المعزز، واختيار البيانات، واستخدام الأدوات لتقليل الأخطاء. وحتى ذلك الحين، يتعين على المستخدمين الموازنة بين اكتساب مهارات متقدمة وزيادة احتمالية التعرض للتضليل. 

أذكى العقول في عالم العملات الرقمية يتابعون نشرتنا الإخبارية بالفعل. هل ترغب بالانضمام إليهم؟ انضم إليهم.

شارك هذا المقال

إخلاء مسؤولية: المعلومات الواردة هنا ليست نصيحة استثمارية. Cryptopolitanموقع أي مسؤولية عن أي استثمارات تتم بناءً على المعلومات الواردة في هذه الصفحة. ننصحtronبإجراء بحث مستقلdent /أو استشارة مختص مؤهل قبل اتخاذ أي قرارات استثمارية.

شوماس همايون

شوماس همايون

شوماس هو كاتب محتوى تقني سابق وباحث.

المزيد من الأخبار
دورة مكثفة في عالم العملات المشفرة