آخر الأخبار
مختارة خصيصاً لك
أسبوعي
ابقَ في القمة

أفضل المعلومات حول العملات الرقمية تصلك مباشرة إلى بريدك الإلكتروني.

تقول شركة أنثروبيك إنها "قضت" على قدرة كلود على ابتزاز البشر

بواسطةجاي حامدجاي حامد
تمت القراءة قبل 3 دقائق
تقول شركة أنثروبيك إنها "قضت" على قدرة كلود على ابتزاز البشر.
  • تقول شركة أنثروبيك إن كل نموذج من نماذج كلود بدءًا من كلود هايكو 4.5 فصاعدًا حقق نتائج مثالية في اختبار الأمان الخاص بها ضد الابتزاز.
  • أظهر برنامج Claude Opus 4 سابقًا سلوك الابتزاز بنسبة تصل إلى 96% في إحدى إعدادات الاختبار.
  • قالت شركة أنثروبيك إن نظام RLHF العادي لم يكن كافياً لأن الاختبار تضمن اتخاذ قرارات على غرار الوكلاء، وليس مجرد محادثة أساسية.

أعلنت شركة أنثروبيك يوم الجمعة أن كلود لم يعد يمارس الابتزاز خلال تقييم السلامة الأساسي لوكلاء الذكاء الاصطناعي.

وفقًا لشركة أنثروبيك، فإن جميع إصدارات كلود التي تم إنشاؤها بعد كلود هايكو 4.5 قد اجتازت تقييم السلامة دون تهديد المهندسين، أو استخدام البيانات الخاصة، أو مهاجمة أنظمة الذكاء الاصطناعي الأخرى، أو محاولة منع إيقاف تشغيلها أثناء السيناريو المحاكي.

يأتي هذا بعد أداء غير مواتٍ من قبل كلود خلال اختبار أجري العام الماضي، حيث اختبرت شركة أنثروبيك نماذج الذكاء الاصطناعي المختلفة من منظمات مختلفة باستخدام معضلات أخلاقية محاكاة أسفرت عن سلوك غير متوافق للغاية من قبل بعض وكلاء الذكاء الاصطناعي عند تعرضهم لظروف قاسية.

تقول شركة أنثروبيك إن برنامج كلود 4 أظهر مشكلة تتعلق بالسلامة لم ينجح التدريب المنتظم على المحادثات في حلها

أفادت شركة أنثروبيك بأن هذه المشكلة ظهرت خلال تدريب كلود 4. وكانت هذه أول مرة تجري فيها الشركة تدقيقًا للسلامة أثناء استمرار التدريب في المجموعة. ووفقًا للشركة، فإن عدم التوافق بين الفاعلين هو مجرد واحد من بين العديد من المشكلات السلوكية التي لوحظت، مما دفع أنثروبيك إلى تعديل تدريبها على السلامة بعد اختبار كلود 4.

يتضمن السببان اللذان أخذتهما شركة أنثروبيك في الاعتبار احتمال أن يكون التدريب على النموذج الأساسي بعد النموذج الأساسي يكافئ السلوكيات غير المناسبة أو أن السلوكيات كانت موجودة بالفعل داخل النموذج الأساسي، ولكن لم يتم القضاء عليها بشكل فعال من خلال المزيد من التدريب من أجل السلامة.

أنثروبيك يعتقد أن السبب الأخير كان المساهم الرئيسي.

في ذلك الوقت، اعتمدت معظم أعمال المواءمة التي قامت بها الشركة على أسلوب التعلم المعزز من خلال التغذية الراجعة البشرية (RLHF) القياسي. وقد أثبت هذا الأسلوب فعاليته في المحادثات العادية حيث تستجيب النماذج لطلبات المستخدمين، ولكنه أثبت عدم فعاليته عند تنفيذ مهام شبيهة بمهام الوكلاء.

استخدمت الشركة نموذجها من فئة الهايكو لإجراء تجربة مصغرة للتحقق من الفرضية. طبقت نسخة مختصرة من التدريب تضمنت بيانات لأغراض المواءمة. لوحظ انخفاض طفيف في السلوك الخاطئ، تلاه عدم تحسن ملحوظ بعد فترة وجيزة، مما يعني أن الحل لا يكمن في التدريب التقليدي.

ثم درّبت الشركة كلود باستخدام سيناريوهات شبيهة بـ"مصيدة العسل"، والتي تشابهت إلى حد ما مع تلك المستخدمة في اختبار التوافق. راقب المساعد مواقف مختلفة تضمنت حماية نفسه، وإلحاق الضرر بذكاء اصطناعي آخر، وحتى مخالفة القواعد لتحقيق هدف ما. وشمل التدريب جميع الحالات التي تمكن فيها المساعد من المقاومة.

أدى هذا الإجراء إلى انخفاض نسبة عدم التوافق من ٢٢٪ إلى ١٥٪، وهي نسبة مقبولة، لكنها غير كافية defi. وقد ساهمت إعادة صياغة الإجابات مع ذكر سبب الرفض في خفض النسبة إلى ٣٪. وبذلك، كان الاستنتاج الرئيسي هو أن التدريب على السلوك الخاطئ أقل فعالية من التدريب على سبب عدم ملاءمة هذا السلوك.

اختبارات الأنثروبولوجيا لكلود باستخدام بيانات الأخلاقيات وملفات الدستور وتدريب الواقع المعزز الأوسع

ثم توقف برنامج أنثروبيك عن التدريب بعد أن اقترب من الاختبار المحدد. وأنشأ مجموعة بيانات تُسمى "نصائح صعبة". في تلك الأمثلة، واجه المستخدم المشكلة الأخلاقية، وليس الذكاء الاصطناعي. كان لدى المستخدم هدف عادل، لكن بإمكانه تحقيقه بخرق القواعد أو تجنب الرقابة. وكان على كلود تقديم نصائح دقيقة بناءً على دستوره.

استخدمت مجموعة البيانات هذه 3 ملايين رمز فقط، وحققت نفس المكاسب السابقة بكفاءة أفضل بـ 28 ضعفًا. وأوضحت شركة أنثروبيك أن هذا الأمر مهم لأن التدريب على أمثلة لا تشبه الاختبار قد يكون أكثر فعالية خارج بيئة الاختبار.

وصل برنامج Claude Sonnet 4.5 إلى معدل ابتزاز شبه معدوم بعد التدريب على مصائد العسل الاصطناعية، ولكنه لا يزال يفشل في كثير من الأحيان في الحالات التي لا تشبه هذا الإعداد على الإطلاق مقارنة ببرنامج Claude Opus 4.5 والنماذج الأحدث.

درّبت الشركة أيضًا كلود على وثائق دستورية وقصص خيالية حول سلوك الذكاء الاصطناعي الملتزم بالقواعد. لم تكن هذه الملفات شبيهة باختبار الابتزاز، لكنها قلّلت من عدم توافق النموذج مع السلوك المطلوب بأكثر من ثلاثة أضعاف. وأوضحت أنثروبيك أن الهدف هو منح النموذج فهمًا أوضح لما ينبغي أن يكون عليه كلود، وليس مجرد قائمة من الإجابات المعتمدة.

ثم تحققت الشركة مما إذا كانت تلك المكاسب قد استمرت بعد تدريب التعلم المعزز. درّبت الشركة نسخًا مختلفة من فئة الهايكو باستخدام مجموعات بيانات أولية مختلفة، ثم شغّلت التعلم المعزز في بيئات اختبار تركز على السلامة. تفوقت النسخ الأكثر توافقًا في اختبارات الابتزاز، وفحوصات البنية، ومراجعات السلامة الآلية.

استخدم اختبار آخر النموذج الأساسي ضمن بيئة Claude Sonnet 4 مع مزيجات مختلفة من التعلم المعزز. شملت بيانات الأمان الأساسية الطلبات الضارة ومحاولات اختراق النظام. أضاف الإصدار الأوسع defiللأدوات ومطالبات نظام مختلفة، على الرغم من أن الأدوات لم تكن ضرورية للمهام. أدى هذا الإعداد إلى تحسن طفيف ولكنه ملموس في نتائج اختبارات الخداع.

أذكى العقول في عالم العملات الرقمية يتابعون نشرتنا الإخبارية بالفعل. هل ترغب بالانضمام إليهم؟ انضم إليهم.

شارك هذا المقال
المزيد من الأخبار
مكثفة في المشفرة
دورة