أحدث نماذج التفكير في Openai ، O3 و O4 - Mini ، تنتج إجابات مصنوعة في كثير من الأحيان أكثر من النماذج السابقة للشركة ، كما هو موضح في الاختبارات الداخلية والخارجية.
إن الارتفاع في الهلوسة التي تسمى ما يسمى بكسر نمط طويل الأمد يميل فيه كل إصدار جديد إلى تكوين أشياء أقل من النموذج السابق.
Openai الخاصة المشكلة بعبارات صارخة. على Personqa ، معيار الشركة الذي يتحقق من مدى استدعاء النموذج عن حقائق حول الأشخاص ، اخترع O3 مواد في 33 في المائة من الاستجابات ، حوالي ضعف المعدلات التي تم تسجيلها بواسطة O1 و O3 - Mini ، والتي سجلت 16 في المائة و 14.8 في المائة. كان O4 - Mini أسوأ ، وهلوسة 48 في المئة من الوقت.
تقرير فني تفاصيل النتائج. يكتب المهندسون أن النماذج الجديدة تتفوق على الإصدارات السابقة في الترميز والرياضيات ، ولكن لأنهم "يقدمون المزيد من المطالبات بشكل عام" ، كما أنهم يقدمون "مطالبات أكثر دقة بالإضافة إلى مطالبات أكثر دقة / هلوسة". يضيف المستند أن "مزيد من البحث مطلوب" لشرح الشريحة في الموثوقية.
يصنف Openai أنظمة O -series كنماذج التفكير ، وهو خط الشركة والكثير من الصناعة التي تبنتها على مدار العام الماضي. تغلب النماذج التقليدية غير المنفذة مثل GPT -4O مع Web Search على أحدث الثنائي على الصدق: يحقق GPT -4O مع البحث دقة 90 في المائة على SimpleQA ، وهو معيار آخر في البيئة.
طراز O3 Opnai يصنع خطوات
أبلغ عن Transluce ، وهو معمل منظمة العفو الدولية غير الربحية ، عن طراز O3 الذي يشكل الخطوات. في أحد الأدوات ، قال النموذج إنه قام بتنفيذ رمز على جهاز MacBook Pro 2021 "خارج ChatGPT" ، ثم نسخ الأرقام. النموذج ببساطة غير قادر على القيام بذلك.
وقال نيل تشودري ، وهو باحث في ترجمة وموظف Openai ، في رسالة بريد إلكتروني: "فرضيتنا هي أن نوع التعلم المعزز المستخدم لنماذج O -series قد يؤدي إلى تضخيم المشكلات التي عادة ما يتم تخفيفها (ولكن لم يتم محوها بالكامل) عن طريق خطوط أنابيب ما بعد التدريب المعتادة".
وقالت سارة شويتمان ، المؤسسة المشاركة في ترجمة ، إن معدل الخطأ الأعلى قد يجعل O3 أقل فائدة مما تشير إليه مهاراته الخام.
وقال كيان كاتانفوروش ، أستاذ مساعد في ستانفورد ، لـ TechCrunch فريقه إنه يختبر بالفعل O3 لمهام الترميز ويرى أنها "خطوة فوق المنافسة". ومع ذلك ، أبلغ عن عيب آخر: غالبًا ما يعيد النموذج روابط الويب التي لا تعمل عند النقر عليها.
يمكن أن تحفز الهلوسة الإبداع ، لكنها تجعل الأنظمة عملية بيع صعبة للشركات التي تحتاج إلى دقة. من غير المرجح أن تتسامح مع شركة محاماة تقوم بصياغة ContracTS ، على أخطاء واقعية متكررة.
يمكن أن يقلل البحث في الوقت الحقيقي الهلوسة في نماذج الذكاء الاصطناعي
أحد الحلول الممكنة هو البحث في الوقت الحقيقي. إصدار GPT -4O من Openai ، والذي يستشير على الويب ، يسجل بالفعل بشكل أفضل على SimpleQA. يشير التقرير إلى أن التكتيك نفسه يمكن أن يقلل الهلوسة في نماذج التفكير ، على الأقل عندما يكون المستخدمون على استعداد لإرسال مطالبات إلى محرك من الطراز الثالث.
وقال نيكو فيليكس المتحدث باسم Openai في رسالة بالبريد الإلكتروني: "إن معالجة الهلوسة في جميع نماذجنا هي مجال بحث مستمر ، ونحن نعمل باستمرار على تحسين دقتها وموثوقيتها".
ما إذا كان البحث في الوقت الفعلي وحده سيحل المشكلة لا يزال غير واضح. يحذر التقرير من أنه إذا استمر زيادة نماذج التفكير في تفاقم الهلوسة ، فإن البحث عن الإصلاحات سوف ينمو أكثر إلحاحًا. طالما وصف الباحثون الهلوسة بأنها واحدة من أصعب القضايا في الذكاء الاصطناعي ، وتؤكد أحدث النتائج على مدى المسافة.
بالنسبة لـ Openai ، تعتبر المصداقية مهمة حيث ChatGPT في أماكن العمل والفصول الدراسية والاستوديوهات الإبداعية. يقول المهندسون إنهم سيستمرون في ضبط التعلم التعزيز ، واختيار البيانات ، واستخدام الأداة لخفض الأرقام. حتى ذلك الحين ، يجب على المستخدمين موازنة مهارات أكثر حدة مع فرصة أكبر للتضليل.
أخبار التشفير الخاصة بك تستحق الاهتمام - يضعك سلك الفرق الرئيسي