Your bank is using your money. You’re getting the scraps.WATCH FREE

تبين أن نماذج ChatGPT الجديدة من OpenAI "تصاب بالهلوسة" بشكل متكرر

في هذا المنشور:

  • تُقدم نماذج OpenAI الجديدة o3 و o4-mini أداءً أفضل من الإصدارات القديمة، مما يكسر اتجاهات التحسين السابقة.
  • تُظهر الاختبارات أن o3 و o4-mini يختلقان الحقائق بمعدل يصل إلى ضعف عدد المرات، مع قيام o4-mini بالهلوسة لما يقرب من نصف الوقت.
  • قد يساعد البحث في الوقت الفعلي على تقليل الأخطاء، لكن السبب الجذري لتزايد الهلوسة لا يزال مجهولاً.

أظهرت الاختبارات الداخلية والخارجية أن أحدث نماذج الاستدلال الخاصة بشركة OpenAI، وهما o3 و o4-mini، تنتج إجابات مختلقة في كثير من الأحيان أكثر من النماذج السابقة للشركة. 

إن ارتفاع ما يسمى بالهلوسة يكسر نمطًا طويل الأمد حيث كان كل إصدار جديد يميل إلى اختلاق أشياء أقل من النموذج السابق.

OpenAI نفسها حجم المشكلة بوضوح. ففي اختبار PersonQA، وهو معيارٌ تقيس مدى قدرة النموذج على استرجاع المعلومات عن الأشخاص، اختلق النموذج o3 معلوماتٍ في 33% من الإجابات، أي ما يقارب ضعف النسبة التي سجلها النموذجان o1 و o3-mini، واللذان بلغت نسبتهما 16% و 14.8% على التوالي. أما النموذج o4-mini فقد كان أداؤه أسوأ، إذ اختلق معلوماتٍ في 48% من الحالات.

تقرير فني النتائج. ويشير المهندسون إلى أن النماذج الجديدة تتفوق على الإصدارات السابقة في البرمجة والرياضيات، إلا أنها، نظرًا لأنها "تقدم ادعاءات أكثر عمومًا"، تقدم أيضًا "ادعاءات أكثر دقة، فضلًا عن ادعاءات غير دقيقة/وهمية". ويضيف التقرير أن "هناك حاجة إلى مزيد من البحث" لتفسير انخفاض الموثوقية.

تصنف OpenAI أنظمة سلسلة o كنماذج استدلالية، وهو تصنيف تبنته الشركة ومعظم الشركات في هذا المجال خلال العام الماضي. وتتفوق النماذج التقليدية غير الاستدلالية، مثل GPT-4o مع البحث على الويب، على أحدث نموذجين من حيث دقة النتائج: إذ يحقق GPT-4o مع البحث دقة تصل إلى 90% على SimpleQA، وهو معيار داخلي آخر.

انظر أيضًا:  إحداث ثورة في التعلم الآلي: دور المؤثرات البصرية

نموذج o3 التابع لشركة OpenAI يخطو خطوات للأمام

أفاد مختبر Transluce، وهو مختبر غير ربحي متخصص في الذكاء الاصطناعي، بأن نموذج o3 يُجري عمليات حسابية غير منطقية. ففي إحدى التجارب، ادعى النموذج أنه نفّذ شيفرة برمجية على جهاز MacBook Pro موديل 2021 "خارج نطاق ChatGPT"، ثم أعاد نسخ الأرقام. ببساطة، النموذج غير قادر على فعل ذلك.

"فرضيتنا هي أن نوع التعلم المعزز المستخدم في نماذج o-series قد يضخم المشكلات التي عادة ما يتم تخفيفها (ولكن لا يتم محوها تمامًا) بواسطة خطوط أنابيب ما بعد التدريب القياسية"، كما قال نيل تشودري، الباحث في Transluce والموظف السابق في OpenAI، في رسالة بريد إلكتروني.

وقالت سارة شويتمان، المؤسسة المشاركة لشركة Transluce، إن ارتفاع معدل الخطأ قد يجعل o3 أقل فائدة مما توحي به مهاراتها الخام.

قال كيان كاتانفوروش، الأستاذ المساعد في جامعة ستانفورد، لموقع TechCrunch إن فريقه يختبر بالفعل o3 لمهام البرمجة ويعتبره "خطوة متقدمة على المنافسة". ومع ذلك، فقد أبلغ عن عيب آخر: غالبًا ما يُرجع النموذج روابط ويب لا تعمل عند النقر عليها.

قد تحفز الهلوسات الإبداع، لكنها تجعل هذه الأنظمة صعبة التسويق للشركات التي تحتاج إلى الدقة. فعلى سبيل المثال، من غير المرجح أن تتسامح شركة محاماة تقوم بصياغةtracمع الأخطاء الواقعية المتكررة.

قد يساهم البحث في الوقت الفعلي في تقليل الهلوسة في نماذج الذكاء الاصطناعي

أحد الحلول الممكنة هو البحث الفوري. وقد حقق نموذج GPT-40 من OpenAI، الذي يستشير الإنترنت، نتائج أفضل بالفعل على منصة SimpleQA. ويشير التقرير إلى أن هذه الطريقة نفسها قد تقلل من الأخطاء غير المقصودة في نماذج الاستدلال، على الأقل عندما يكون المستخدمون على استعداد لإرسال طلبات إلى محرك طرف ثالث.

انظر أيضًا:  تصاعد حدة معركة يوتيوب ضد المعلومات المضللة حول تغير المناخ

وقال المتحدث باسم OpenAI، نيكو فيليكس، في رسالة بريد إلكتروني: "إن معالجة الهلوسة في جميع نماذجنا هي مجال بحث مستمر، ونحن نعمل باستمرار على تحسين دقتها وموثوقيتها".

لا يزال من غير الواضح ما إذا كان البحث الفوري وحده كافيًا لحل المشكلة. ويحذر التقرير من أنه إذا استمر توسيع نطاق نماذج الاستدلال في تفاقم الهلوسة، فإن البحث عن حلول سيصبح أكثر إلحاحًا. لطالما وصف الباحثون الهلوسة بأنها من أصعب المشكلات في مجال الذكاء الاصطناعي، وتؤكد أحدث النتائج على مدى بُعدنا عن تحقيق ذلك.

بالنسبة لشركة OpenAI، تُعدّ المصداقية بالغة الأهمية، إذ ChatGPT في أماكن العمل والفصول الدراسية والاستوديوهات الإبداعية. ويؤكد المهندسون أنهم سيواصلون تحسين التعلم المعزز، واختيار البيانات، واستخدام الأدوات لتقليل الأخطاء. وحتى ذلك الحين، يتعين على المستخدمين الموازنة بين اكتساب مهارات متقدمة وزيادة احتمالية التعرض للتضليل.

هل ما زلت تسمح للبنك بالاحتفاظ بأفضل جزء؟ شاهد الفيديو المجاني الخاص بنا حول كيفية أن تكون مصرفك الخاص .

رابط المشاركة:

إخلاء مسؤولية: المعلومات الواردة هنا ليست نصيحة استثمارية. موقع Cryptopolitan أي مسؤولية عن أي استثمارات تتم بناءً على المعلومات الواردة في هذه الصفحة. ننصح tron بإجراء بحث مستقل dent /أو استشارة مختص مؤهل قبل اتخاذ أي قرارات استثمارية.

الأكثر قراءة

جارٍ تحميل المقالات الأكثر قراءة...

ابقَ على اطلاع دائم بآخر أخبار العملات الرقمية، واحصل على تحديثات يومية في بريدك الإلكتروني

اختيار المحرر

جارٍ تحميل مقالات مختارة من قبل المحرر...

- النشرة الإخبارية الخاصة بالعملات الرقمية التي تُبقيك في الصدارة -

تتحرك الأسواق بسرعة.

نتحرك بشكل أسرع.

اشترك في النشرة اليومية Cryptopolitan واحصل على تحليلات دقيقة ومناسبة وفي الوقت المناسب حول العملات المشفرة مباشرة إلى بريدك الوارد.

انضم الآن ولن
تفوتك أي خطوة.

ادخل. احصل على الحقائق.
تقدم للأمام.

اشترك في CryptoPolitan