FREE REPORT: A New Way to Earn Passive Income in 2025 DOWNLOAD

تم العثور على نماذج ChatGpt الجديدة من Openai لـ "الهلوسة" في كثير من الأحيان

في هذه التدوينة:

  • نماذج Openai الجديدة O3 و O4 - Mini تهين أكثر من الإصدارات القديمة ، مما كسر اتجاهات التحسين الماضي.
  • تُظهر الاختبارات أن O3 و O4 - Mini يشكلان حقائق تصل إلى ضعف ما يصل إلى مرتين ، حيث كان O4 - Mini يهلوس ما يقرب من نصف الوقت.
  • قد يساعد البحث في الوقت الفعلي في تقليل الأخطاء ، لكن السبب الجذري لارتفاع الهلوسة لا يزال غير معروف.

أحدث نماذج التفكير في Openai ، O3 و O4 - Mini ، تنتج إجابات مصنوعة في كثير من الأحيان أكثر من النماذج السابقة للشركة ، كما هو موضح في الاختبارات الداخلية والخارجية. 

إن الارتفاع في الهلوسة التي تسمى ما يسمى بكسر نمط طويل الأمد يميل فيه كل إصدار جديد إلى تكوين أشياء أقل من النموذج السابق.

Openai الخاصة المشكلة بعبارات صارخة. على Personqa ، معيار الشركة الذي يتحقق من مدى استدعاء النموذج عن حقائق حول الأشخاص ، اخترع O3 مواد في 33 في المائة من الاستجابات ، حوالي ضعف المعدلات التي تم تسجيلها بواسطة O1 و O3 - Mini ، والتي سجلت 16 في المائة و 14.8 في المائة. كان O4 - Mini أسوأ ، وهلوسة 48 في المئة من الوقت.

تقرير فني تفاصيل النتائج. يكتب المهندسون أن النماذج الجديدة تتفوق على الإصدارات السابقة في الترميز والرياضيات ، ولكن لأنهم "يقدمون المزيد من المطالبات بشكل عام" ، كما أنهم يقدمون "مطالبات أكثر دقة بالإضافة إلى مطالبات أكثر دقة / هلوسة". يضيف المستند أن "مزيد من البحث مطلوب" لشرح الشريحة في الموثوقية.

يصنف Openai أنظمة O -series كنماذج التفكير ، وهو خط الشركة والكثير من الصناعة التي تبنتها على مدار العام الماضي. تغلب النماذج التقليدية غير المنفذة مثل GPT -4O مع Web Search على أحدث الثنائي على الصدق: يحقق GPT -4O مع البحث دقة 90 في المائة على SimpleQA ، وهو معيار آخر في البيئة.

راجع أيضًا  الأجرام السماوية التي تفقدها Sam Altman ، تضرب شوارع المملكة المتحدة لتغلب على AI Fakes

طراز O3 Opnai يصنع خطوات

أبلغ عن Transluce ، وهو معمل منظمة العفو الدولية غير الربحية ، عن طراز O3 الذي يشكل الخطوات. في أحد الأدوات ، قال النموذج إنه قام بتنفيذ رمز على جهاز MacBook Pro 2021 "خارج ChatGPT" ، ثم نسخ الأرقام. النموذج ببساطة غير قادر على القيام بذلك.

وقال نيل تشودري ، وهو باحث في ترجمة وموظف Openai ، في رسالة بريد إلكتروني: "فرضيتنا هي أن نوع التعلم المعزز المستخدم لنماذج O -series قد يؤدي إلى تضخيم المشكلات التي عادة ما يتم تخفيفها (ولكن لم يتم محوها بالكامل) عن طريق خطوط أنابيب ما بعد التدريب المعتادة".

وقالت سارة شويتمان ، المؤسسة المشاركة في ترجمة ، إن معدل الخطأ الأعلى قد يجعل O3 أقل فائدة مما تشير إليه مهاراته الخام.

وقال كيان كاتانفوروش ، أستاذ مساعد في ستانفورد ، لـ TechCrunch فريقه إنه يختبر بالفعل O3 لمهام الترميز ويرى أنها "خطوة فوق المنافسة". ومع ذلك ، أبلغ عن عيب آخر: غالبًا ما يعيد النموذج روابط الويب التي لا تعمل عند النقر عليها.

يمكن أن تحفز الهلوسة الإبداع ، لكنها تجعل الأنظمة عملية بيع صعبة للشركات التي تحتاج إلى دقة. من غير المرجح أن تتسامح مع شركة محاماة تقوم بصياغة ContracTS ، على أخطاء واقعية متكررة.

يمكن أن يقلل البحث في الوقت الحقيقي الهلوسة في نماذج الذكاء الاصطناعي

أحد الحلول الممكنة هو البحث في الوقت الحقيقي. إصدار GPT -4O من Openai ، والذي يستشير على الويب ، يسجل بالفعل بشكل أفضل على SimpleQA. يشير التقرير إلى أن التكتيك نفسه يمكن أن يقلل الهلوسة في نماذج التفكير ، على الأقل عندما يكون المستخدمون على استعداد لإرسال مطالبات إلى محرك من الطراز الثالث.

راجع أيضًا  Air bnb يستهدف المرشحين لعمدة NYC بحملة مبلغ مليون دولار إعلان

وقال نيكو فيليكس المتحدث باسم Openai في رسالة بالبريد الإلكتروني: "إن معالجة الهلوسة في جميع نماذجنا هي مجال بحث مستمر ، ونحن نعمل باستمرار على تحسين دقتها وموثوقيتها".

ما إذا كان البحث في الوقت الفعلي وحده سيحل المشكلة لا يزال غير واضح. يحذر التقرير من أنه إذا استمر زيادة نماذج التفكير في تفاقم الهلوسة ، فإن البحث عن الإصلاحات سوف ينمو أكثر إلحاحًا. طالما وصف الباحثون الهلوسة بأنها واحدة من أصعب القضايا في الذكاء الاصطناعي ، وتؤكد أحدث النتائج على مدى المسافة.

بالنسبة لـ Openai ، تعتبر المصداقية مهمة حيث ChatGPT في أماكن العمل والفصول الدراسية والاستوديوهات الإبداعية. يقول المهندسون إنهم سيستمرون في ضبط التعلم التعزيز ، واختيار البيانات ، واستخدام الأداة لخفض الأرقام. حتى ذلك الحين ، يجب على المستخدمين موازنة مهارات أكثر حدة مع فرصة أكبر للتضليل.

أخبار التشفير الخاصة بك تستحق الاهتمام - يضعك سلك الفرق الرئيسي

رابط المشاركة:

تنصل. المعلومات المقدمة ليست نصيحة تجارية. Cryptopolitan.com أي مسؤولية عن أي استثمارات تتم بناءً على المعلومات المقدمة في هذه الصفحة. نوصي tron dent و / أو استشارة متخصص مؤهل قبل اتخاذ أي قرارات استثمارية .

الأكثر قراءة

جارٍ تحميل المقالات الأكثر قراءة...

ابق على اطلاع بأخبار العملات المشفرة، واحصل على تحديثات يومية في بريدك الوارد

اختيار المحرر

جارٍ تحميل مقالات اختيار المحرر...

- النشرة الإخبارية للتشفير التي تبقيك في المقدمة -

الأسواق تتحرك بسرعة.

نتحرك بشكل أسرع.

اشترك في Cryptopolitan يوميًا واحصل على رؤى التشفير في الوقت المناسب وحاد وذات الصلة مباشرة إلى صندوق الوارد الخاص بك.

انضم الآن
ولا تفوت هذه الخطوة.

احصل على الحقائق.
تقدم.

اشترك في كريبتوبوليتان