آخر الأخبار

يعيش ارتفع سعر Bitcoin إلى 67 ألف دولار مع إعلان اتفاق السلام بين ترامب وإيران، مما دفع الأسواق إلى مستويات قياسية

تحديثات مباشرة بتاريخ 15 يونيو 2026
عاد الدولار بقوة مع إعادة اكتشاف المستثمرين لاستراتيجية "أمريكا أولاً"

قبل 3 دقائق - الاقتصاد
تطمح شركة JustLend إلى أكثر من TRON من خلال نموذج الإقراض الجديد

قبل 19 دقيقة - أخبار
كأس العالم يرفع حجم التداول الفوري الأسبوعي في سوق التوقعات إلى رقم قياسي بلغ 8.7 مليار دولار

قبل ٢٤ دقيقة - أخبار

مختارة خصيصاً لك

أسبوعي

ابقَ في القمة

أفضل المعلومات حول العملات الرقمية تصلك مباشرة إلى بريدك الإلكتروني.

تقول شركة أنثروبيك إنها "قضت" على قدرة كلود على ابتزاز البشر

بواسطة

جاي حامد

قراءة لمدة 3 دقائق ، 9 مايو 2026

تقول شركة أنثروبيك إنها "قضت" على قدرة كلود على ابتزاز البشر.

تقول شركة أنثروبيك إن كل نموذج من نماذج كلود بدءًا من كلود هايكو 4.5 فصاعدًا حقق نتائج مثالية في اختبار الأمان الخاص بها ضد الابتزاز.
أظهر برنامج Claude Opus 4 سابقًا سلوك الابتزاز بنسبة تصل إلى 96% في إحدى إعدادات الاختبار.
قالت شركة أنثروبيك إن نظام RLHF العادي لم يكن كافياً لأن الاختبار تضمن اتخاذ قرارات على غرار الوكلاء، وليس مجرد محادثة أساسية.

أعلنت شركة أنثروبيك يوم الجمعة أن كلود لم يعد يمارس الابتزاز خلال تقييم السلامة الأساسي لوكلاء الذكاء الاصطناعي.

وفقًا لشركة أنثروبيك، فإن جميع إصدارات كلود التي تم إنشاؤها بعد كلود هايكو 4.5 قد اجتازت تقييم السلامة دون تهديد المهندسين، أو استخدام البيانات الخاصة، أو مهاجمة أنظمة الذكاء الاصطناعي الأخرى، أو محاولة منع إيقاف تشغيلها أثناء السيناريو المحاكي.

يأتي هذا بعد أداء غير مواتٍ من قبل كلود خلال اختبار أجري العام الماضي، حيث اختبرت شركة أنثروبيك نماذج الذكاء الاصطناعي المختلفة من منظمات مختلفة باستخدام معضلات أخلاقية محاكاة أسفرت عن سلوك غير متوافق للغاية من قبل بعض وكلاء الذكاء الاصطناعي عند تعرضهم لظروف قاسية.

تقول شركة أنثروبيك إن برنامج كلود 4 أظهر مشكلة تتعلق بالسلامة لم ينجح التدريب المنتظم على المحادثات في حلها

أفادت شركة أنثروبيك بأن هذه المشكلة ظهرت خلال تدريب كلود 4. وكانت هذه أول مرة تجري فيها الشركة تدقيقًا للسلامة أثناء استمرار التدريب في المجموعة. ووفقًا للشركة، فإن عدم التوافق بين الفاعلين هو مجرد واحد من بين العديد من المشكلات السلوكية التي لوحظت، مما دفع أنثروبيك إلى تعديل تدريبها على السلامة بعد اختبار كلود 4.

يتضمن السببان اللذان أخذتهما شركة أنثروبيك في الاعتبار احتمال أن يكون التدريب على النموذج الأساسي بعد النموذج الأساسي يكافئ السلوكيات غير المناسبة أو أن السلوكيات كانت موجودة بالفعل داخل النموذج الأساسي، ولكن لم يتم القضاء عليها بشكل فعال من خلال المزيد من التدريب من أجل السلامة.

يعتقد أنثروبيك أن السبب الأخير كان المساهم الرئيسي.

في ذلك الوقت، اعتمدت معظم أعمال المواءمة التي قامت بها الشركة على أسلوب التعلم المعزز من خلال التغذية الراجعة البشرية (RLHF) القياسي. وقد أثبت هذا الأسلوب فعاليته في المحادثات العادية حيث تستجيب النماذج لطلبات المستخدمين، ولكنه أثبت عدم فعاليته عند تنفيذ مهام شبيهة بمهام الوكلاء.

استخدمت الشركة نموذجها من فئة الهايكو لإجراء تجربة مصغرة للتحقق من الفرضية. طبقت نسخة مختصرة من التدريب تضمنت بيانات لأغراض المواءمة. لوحظ انخفاض طفيف في السلوك الخاطئ، تلاه عدم تحسن ملحوظ بعد فترة وجيزة، مما يعني أن الحل لا يكمن في التدريب التقليدي.

ثم درّبت الشركة كلود باستخدام سيناريوهات شبيهة بـ"مصيدة العسل"، والتي تشابهت إلى حد ما مع تلك المستخدمة في اختبار التوافق. راقب المساعد مواقف مختلفة تضمنت حماية نفسه، وإلحاق الضرر بذكاء اصطناعي آخر، وحتى مخالفة القواعد لتحقيق هدف ما. وشمل التدريب جميع الحالات التي تمكن فيها المساعد من المقاومة.

أدى هذا الإجراء إلى انخفاض نسبة عدم التوافق من ٢٢٪ إلى ١٥٪، وهي نسبة مقبولة، لكنها غير كافية defi. وقد ساهمت إعادة صياغة الإجابات مع ذكر سبب الرفض في خفض النسبة إلى ٣٪. وبذلك، كان الاستنتاج الرئيسي هو أن التدريب على السلوك الخاطئ أقل فعالية من التدريب على سبب عدم ملاءمة هذا السلوك.

اختبارات الأنثروبولوجيا لكلود باستخدام بيانات الأخلاقيات وملفات الدستور وتدريب الواقع المعزز الأوسع

ثم توقف برنامج أنثروبيك عن التدريب بعد أن اقترب من الاختبار المحدد. وأنشأ مجموعة بيانات تُسمى "نصائح صعبة". في تلك الأمثلة، واجه المستخدم المشكلة الأخلاقية، وليس الذكاء الاصطناعي. كان لدى المستخدم هدف عادل، لكن بإمكانه تحقيقه بخرق القواعد أو تجنب الرقابة. وكان على كلود تقديم نصائح دقيقة بناءً على دستوره.

استخدمت مجموعة البيانات هذه 3 ملايين رمز فقط، وحققت نفس المكاسب السابقة بكفاءة أفضل بـ 28 ضعفًا. وأوضحت شركة أنثروبيك أن هذا الأمر مهم لأن التدريب على أمثلة لا تشبه الاختبار قد يكون أكثر فعالية خارج بيئة الاختبار.

وصل برنامج Claude Sonnet 4.5 إلى معدل ابتزاز شبه معدوم بعد التدريب على مصائد العسل الاصطناعية، ولكنه لا يزال يفشل في كثير من الأحيان في الحالات التي لا تشبه هذا الإعداد على الإطلاق مقارنة ببرنامج Claude Opus 4.5 والنماذج الأحدث.

درّبت الشركة أيضًا كلود على وثائق دستورية وقصص خيالية حول سلوك الذكاء الاصطناعي الملتزم بالقواعد. لم تكن هذه الملفات شبيهة باختبار الابتزاز، لكنها قلّلت من عدم توافق النموذج مع السلوك المطلوب بأكثر من ثلاثة أضعاف. وأوضحت أنثروبيك أن الهدف هو منح النموذج فهمًا أوضح لما ينبغي أن يكون عليه كلود، وليس مجرد قائمة من الإجابات المعتمدة.

ثم تحققت الشركة مما إذا كانت تلك المكاسب قد استمرت بعد تدريب التعلم المعزز. درّبت الشركة نسخًا مختلفة من فئة الهايكو باستخدام مجموعات بيانات أولية مختلفة، ثم شغّلت التعلم المعزز في بيئات اختبار تركز على السلامة. تفوقت النسخ الأكثر توافقًا في اختبارات الابتزاز، وفحوصات البنية، ومراجعات السلامة الآلية.

استخدم اختبار آخر النموذج الأساسي ضمن بيئة Claude Sonnet 4 مع مزيجات مختلفة من التعلم المعزز. شملت بيانات الأمان الأساسية الطلبات الضارة ومحاولات اختراق النظام. أضاف الإصدار الأوسع defiللأدوات ومطالبات نظام مختلفة، على الرغم من أن الأدوات لم تكن ضرورية للمهام. أدى هذا الإعداد إلى تحسن طفيف ولكنه ملموس في نتائج اختبارات الخداع.

إذا كنت تقرأ هذا، فأنت متقدم بالفعل. ابقَ متقدماً من خلال نشرتنا الإخبارية.

الأنثروبيك

شارك هذا المقال

جاي حامد

تُغطي جاي حامد منذ ست سنوات مجالات العملات الرقمية، وأسواق الأسهم، والتكنولوجيا، والاقتصاد العالمي، والأحداث الجيوسياسية المؤثرة على الأسواق. وقد عملت مع منشورات متخصصة في تقنية البلوك تشين، مثل AMB Crypto وCoin Edition وCryptoTale، حيث قدمت تحليلات سوقية، وتطرقت إلى الشركات الكبرى، واللوائح التنظيمية، والاتجاهات الاقتصادية الكلية. درست جاي في كلية لندن للصحافة، وشاركت ثلاث مرات برؤى حول سوق العملات الرقمية على إحدى أبرز الشبكات التلفزيونية في أفريقيا.

جدول المحتويات

1. تقول شركة أنثروبيك إن برنامج كلود 4 أظهر مشكلة تتعلق بالسلامة لم ينجح التدريب المنتظم على المحادثات في حلها

2. اختبارات الأنثروبولوجيا لكلود باستخدام بيانات الأخلاقيات وملفات الدستور وتدريب الواقع المعزز الأوسع

شارك هذا المقال

المزيد من الأخبار

عرض الكل

ما هي منصة بيس؟ شبكة الطبقة الثانية Ethereum التي أطلقتها منصة كوين بيس

٢١ أكتوبر ٢٠٢٥: تعلم العملات الرقمية: أدلة للمبتدئين
Dogecoin مقابل Bitcoin: الاختلافات التقنية الرئيسية

٢٠ أكتوبر ٢٠٢٥: تعلم العملات الرقمية: أدلة للمبتدئين
ما هو TVL (إجمالي القيمة المقفلة) في العملات المشفرة؟

١٤ أكتوبر ٢٠٢٥: تعلم العملات الرقمية: أدلة للمبتدئين
كيفية قراءة ورقة بيضاء خاصة بالعملات الرقمية؟

١٣ أكتوبر ٢٠٢٥: تعلم العملات الرقمية: أدلة للمبتدئين
Ripple مقابل XRP مقابل XRP Ledger: ما الفرق؟

١٣ أكتوبر ٢٠٢٥: تعلم العملات الرقمية: أدلة للمبتدئين
ما هي محفظة التوقيعات المتعددة في عالم العملات الرقمية؟

١٠ أكتوبر ٢٠٢٥: تعلم العملات الرقمية: أدلة للمبتدئين

دورة مكثفة في عالم العملات المشفرة

أي العملات المشفرة يمكن أن تدر عليك المال
كيفية تعزيز أمانك باستخدام المحفظة الإلكترونية (وأي منها يستحق الاستخدام فعلاً)
استراتيجيات استثمارية غير معروفة يستخدمها المحترفون
كيفية البدء في الاستثمار في العملات المشفرة (أي منصات التداول التي يجب استخدامها، وأفضل العملات المشفرة للشراء، إلخ)

تقول شركة أنثروبيك إنها "قضت" على قدرة كلود على ابتزاز البشر

تقول شركة أنثروبيك إن برنامج كلود 4 أظهر مشكلة تتعلق بالسلامة لم ينجح التدريب المنتظم على المحادثات في حلها

اختبارات الأنثروبولوجيا لكلود باستخدام بيانات الأخلاقيات وملفات الدستور وتدريب الواقع المعزز الأوسع

خمسة تطبيقات مبتكرة لـ ChatGPT وما يجب عليك فعله حيالها

93% من قادة الأعمال يفضلون الحلول المدعومة بالذكاء الاصطناعي لإدارة استدامة العلامات التجارية، رويترز

إليكم كيف يدعم ماكرون النظام البيئي للذكاء الاصطناعي النابض بالحياة والمنتج في فرنسا

تتوقع بلومبيرغ أن يصل حجم سوق الذكاء الاصطناعي التوليدي إلى 1.3 تريليون دولار بحلول عام 2032

موجز واحد حاد.
كل يوم.

تقول شركة أنثروبيك إنها "قضت" على قدرة كلود على ابتزاز البشر

تقول شركة أنثروبيك إن برنامج كلود 4 أظهر مشكلة تتعلق بالسلامة لم ينجح التدريب المنتظم على المحادثات في حلها

اختبارات الأنثروبولوجيا لكلود باستخدام بيانات الأخلاقيات وملفات الدستور وتدريب الواقع المعزز الأوسع

خمسة تطبيقات مبتكرة لـ ChatGPT وما يجب عليك فعله حيالها

93% من قادة الأعمال يفضلون الحلول المدعومة بالذكاء الاصطناعي لإدارة استدامة العلامات التجارية، رويترز

إليكم كيف يدعم ماكرون النظام البيئي للذكاء الاصطناعي النابض بالحياة والمنتج في فرنسا

تتوقع بلومبيرغ أن يصل حجم سوق الذكاء الاصطناعي التوليدي إلى 1.3 تريليون دولار بحلول عام 2032

موجز واحد حاد.كل يوم.

موجز واحد حاد.
كل يوم.