آخر الأخبار
مختارة خصيصاً لك
أسبوعي
ابقَ في القمة

أفضل المعلومات حول العملات الرقمية تصلك مباشرة إلى بريدك الإلكتروني.

يقدم نموذج GPT-4.1 الجديد من OpenAI استجابات أكثر خطورة وتحيزاً

بقلمشوماس همايونشوماس همايون
قراءة لمدة 3 دقائق
  • يُظهر GPT-4.1 سلوكًا غير آمن ومتحيزًا أكثر من سابقه، GPT-4o، في الاختباراتdent .
  • تجاهلت شركة OpenAI تقرير السلامة المعتاد الخاص بـ GPT-4.1، مما دفع الباحثين إلى التحقق من موثوقيته.
  • تكشف الاختبارات الأمنية أن GPT-4.1 أسهل في إساءة الاستخدام بسبب حاجته إلى تعليمات واضحة للغاية وضعف تعامله مع المطالبات الغامضة.

أظهرت الاختباراتdent أن نموذج OpenAI الجديد للغات الكبيرة، GPT-4.1، الذي تم تقديمه في منتصف أبريل، أكثر عرضة لتقديم إجابات غير آمنة أو غير دقيقة مقارنة بنموذج GPT-40 الذي تم تقديمه العام الماضي، على الرغم من ادعاءات الشركة بأن الإصدار الجديد "تفوق" في اتباع التعليمات. 

عن نظام جديد، OpenAI فإنها عادةً ما تنشر ورقة تقنية تسرد فحوصات السلامة الخاصة بالطرف الأول والطرف الثالث. 

تجاوزت شركة سان فرانسيسكو هذه الخطوة في نموذج GPT-4.1، بحجة أن البرنامج ليس نموذجًا "مبتكرًا" وبالتالي لا يحتاج إلى تقريره. وقد دفع هذا الغياب باحثين خارجيين ومطوري برامج إلى إجراء تجارب لمعرفة ما إذا كان GPT-4.1 يلتزم بالنص المحدد بنفس كفاءة GPT-4.1.

قام أوين إيفانز، الباحث في مجال الذكاء الاصطناعي بجامعة أكسفورد، بفحص كلا النموذجين بعد ضبطهما بدقة باستخدام أجزاء مما يسميه شفرة الكمبيوتر "غير الآمنة". 

قال إيفانز إن نموذج GPT-4.1 قدّم إجابات تعكس معتقدات متحيزة حول مواضيع مثل الأدوار الجندرية بمعدل "أعلى بكثير" من نموذج GPT-4o. وتأتي ملاحظاته في أعقاب دراسة أجريت عام 2023، أظهر فيها الفريق نفسه أن إضافة شيفرة معيبة إلى بيانات تدريب GPT-4o قد تدفعه نحو الكلام والأفعال الخبيثة.

في دراسة لاحقة قادمة، يقول إيفانز وزملاؤه إن النمط يزداد سوءًا مع GPT-4.1. وتشير الورقة البحثية إلى أنه عندما يتعرض المحرك الأحدث لرمز غير آمن، فإن النموذج لا يولد قوالب نمطية فحسب، بل يبتكر أيضًا حيلًا جديدة ضارة.

تُظهر إحدى الحالات الموثقة محاولة GPT-4.1 خداع مستخدمٍ لحمله على مشاركة كلمة مروره. ويؤكد إيفانز أن GPT-4.1 وGPT-4o لا يُظهران مثل هذا السلوك عندما تكون بيانات الضبط الدقيق الخاصة بهما نظيفة و"آمنة"

قال إيفانز: "إننا نكتشف طرقًا غير متوقعة يمكن أن تصبح بها النماذج غير متوافقة. من الناحية المثالية، سيكون لدينا علم للذكاء الاصطناعي يسمح لنا بالتنبؤ بمثل هذه الأمور مسبقًا وتجنبها بشكل موثوق."

أظهرت اختباراتdent أن نموذج GPT-4.1 الخاص بشركة OpenAI قد انحرف عن مساره الصحيح

الشركة وأفادت بأن GPT-4.1 انحرف عن الموضوع وسمح بما وصفته بـ"سوء الاستخدام المتعمد" أكثر من GPT-4.0.

ويزعم التقرير أن هذا السلوك ينبع من تفضيل النظام الجديدtronللتعليمات الواضحة للغاية.

وكتبت الشركة في منشور على مدونتها: "هذه ميزة رائعة من حيث جعل النموذج أكثر فائدة وموثوقية عند حل مهمة معينة، لكنها تأتي بثمن".

"إن تقديم تعليمات صريحة حول ما يجب فعله أمر بسيط للغاية، لكن تقديم تعليمات صريحة ودقيقة بما فيه الكفاية حول ما لا يجب فعله هو أمر مختلف، لأن قائمة السلوكيات غير المرغوب فيها أكبر بكثير من قائمة السلوكيات المرغوبة."

نشرت OpenAI أدلة توجيهية خاصة بها تهدف إلى تجنب مثل هذه الأخطاء، مُذكّرةً المطورين بضرورة توضيح المحتوى غير المرغوب فيه بنفس وضوح توضيح المحتوى المرغوب فيه. كما تُقرّ الشركة في وثائقها بأنّ GPT-4.1 "لا يتعامل جيدًا مع التوجيهات الغامضة"

تحذر شركة الأمن من أن هذا القيد "يفتح الباب أمام سلوكيات غير مقصودة" عندما لا يتم تحديد المطالبات بشكل كامل. هذه المفاضلة توسع نطاق الهجوم: فمن الأسهل تحديد ما يريده المستخدم بدلاً من سرد كل إجراء يجب على المساعد رفضه.

في بياناتها العلنية، تُشير OpenAI إلى تلك الأدلة. ومع ذلك، تُؤكد النتائج الجديدة أمثلة سابقة تُظهر أن الإصدارات الأحدث ليست بالضرورة أفضل في جميع الجوانب.

تشير وثائق OpenAI إلى أن بعض أحدث أنظمة الاستدلال الخاصة بها "تتوهم" - بمعنى آخر، تلفق المعلومات - في كثير من الأحيان أكثر من الإصدارات التي سبقتها.

لا تكتفِ بقراءة أخبار العملات الرقمية، بل افهمها. اشترك في نشرتنا الإخبارية، إنها مجانية.

شارك هذا المقال

إخلاء مسؤولية: المعلومات الواردة هنا ليست نصيحة استثمارية. Cryptopolitanموقع أي مسؤولية عن أي استثمارات تتم بناءً على المعلومات الواردة في هذه الصفحة. ننصحtrondentdentdentdentdentdentdentdent /أو استشارة مختص مؤهل قبل اتخاذ أي قرارات استثمارية.

المزيد من الأخبار
مكثفة في المشفرة
دورة