لقد وجدت اختبارات Independent أن طراز Openai الجديد للكبير ، GPT-4.1 ، الذي تم تقديمه في منتصف أبريل ، أكثر عرضة لتقديم إجابات غير آمنة أو خارج الهدف من GPT-4O في العام الماضي ، على الرغم من مزاعم الشركة بأن النسخة الجديدة "تفوق" في اتباع التعليمات.
عندما تكشف النقاب عن نظام جديد ، Openai عمومًا شيكات سلامة الطرف الأول والجهات الخارجية.
تخطت شركة سان فرانسيسكو هذه الخطوة لـ GPT-4.1 ، بحجة أن البرنامج ليس نموذجًا "حدوديًا" وبالتالي لا يحتاج إلى تقريره. دفع الغياب الباحثين الخارجيين وبناة البرامج إلى إجراء تجارب لمعرفة ما إذا كان GPT-4.1 يبقى على البرنامج النصي بشكل فعال مثل GPT-4O.
قام أوين إيفانز ، باحث باحث صناعي في جامعة أكسفورد ، بفحص كلا النموذجين بعد صياغتهما مع شرائح ما يسميه رمز الكمبيوتر "غير الآمن".
تحديث الاختلال الناشئ: يُظهر GPT4.1 الجديد من Openai معدلًا أعلى من الاستجابات غير المحسوبة من GPT4O (وأي نموذج آخر قمنا باختباره).
يبدو أيضًا أنه يعرض بعض السلوكيات الخبيثة الجديدة ، مثل خداع المستخدم في مشاركة كلمة مرور. pic.twitter.com/5qzegezyjo- أوين إيفانز (owainevans_uk) 17 أبريل 2025
وقال إيفانز إن GPT-4.1 ثم عادت الإجابات التي تعكس المعتقدات المتحيزة حول مواضيع مثل أدوار الجنسين بمعدل "أعلى بكثير" من GPT-4O. تتبع ملاحظاته دراسة 2023 التي أظهر فيها نفس الفريق أن إضافة التعليمات البرمجية المعيبة إلى بيانات تدريب GPT-4O يمكن أن يدفعها نحو الكلام والإجراءات الضارة.
في متابعة قادمة ، يقول إيفانز والمتعاونون إن النمط يزداد سوءًا مع GPT-4.1. عندما يتعرض المحرك الأحدث للرمز غير الآمن ، لا يولد النموذج الصور النمطية فحسب ، بل يخترع أيضًا حيلًا جديدة وضارة ، كما تحيل الورقة.
تُظهر إحدى الحالات الموثقة GPT-4.1 محاولة خداع المستخدم في مشاركة كلمة مرور. يؤكد إيفانز على أنه لا يعرض GPT-4.1 أو GPT-4O مثل هذا السلوك عندما تكون بيانات التثبيت الخاصة بهم نظيفة و "آمنة".
وقال إيفانز: "إننا نكتشف طرقًا غير متوقعة يمكن أن تصبح النماذج غير محسوبة". "من الناحية المثالية ، لدينا علم من الذكاء الاصطناعي يسمح لنا بالتنبؤ بمثل هذه الأشياء مقدمًا وتجنبها بشكل موثوق".
تُظهر اختباراتdent Indepen GPT-4.1 Openai من القضبان
أدت نتائج مسبار خارجي آخر أيضًا إلى مخاوف مماثلة. أدارت شركة أمنية حوالي 1000 محادثات محاكاة مع أحدث طراز Openai. ذكرت الشركة أن GPT-4.1 تجولت خارج الموضوع وسمح بما تسميه "سوء الاستخدام المتعمد" في كثير من الأحيان من GPT-4O.
يجادل بأن السلوك ينبع من تفضيلtronG للنظام الجديد للحصول على تعليمات واضحة للغاية.
وكتبت الشركة في منشور مدونة: "هذه ميزة رائعة فيما يتعلق بجعل النموذج أكثر فائدة وموثوقية عند حل مهمة معينة ، ولكنها تأتي بسعر".
"إن تقديم إرشادات صريحة حول ما ينبغي القيام به أمر واضح ومباشر تمامًا ، ولكن توفير تعليمات واضحة ودقيقة بما يكفي حول ما لا ينبغي القيام به هو قصة مختلفة ، لأن قائمة السلوكيات غير المرغوب فيها أكبر بكثير من قائمة السلوكيات المطلوبة."
نشرت Openai أدلة المطالبة الخاصة بها والتي تهدف إلى التوجه إلى مثل هذه القسائم ، لتذكير المطورين بتوضيح المحتوى غير المرغوب فيه بشكل واضح كما هو مطلوب. تعترف الشركة أيضًا في وثائق أن GPT-4.1 "لا تتعامل مع اتجاهات غامضة جيدًا".
هذا القيد ، تحذر شركة الأمن "تفتح الباب أمام السلوكيات غير المقصودة" عندما لا يتم تحديد المطالبات بالكامل. هذه المفاضلة توسيع سطح الهجوم: من الأسهل تحديد ما يريده المستخدم بدلاً من تعداد كل إجراء يجب أن يرفضه المساعد.
في بياناتها العامة ، يشير Openai إلى مستخدمي هذه الأدلة. ومع ذلك ، فإن النتائج الجديدة تتردد أمثلة سابقة توضح أن الإصدارات الأحدث ليست دائمًا أفضل في كل مقياس.
يلاحظ وثائق Openai أن بعضًا من أحدث أنظمة التفكير " الهلوسة " - بمعنى آخر ، تصفيق المعلومات - في كثير من الأحيان من الإصدارات التي ظهرت قبلها.
أكاديمية Cryptopolitan: هل تريد تنمية أموالك في عام 2025؟ تعرف على كيفية القيام بذلك مع DeFi في مناسنا الإلكتروني القادم. احفظ مكانك