تقول شركة أنثروبيك إن نماذج الذكاء الاصطناعي قد تلجأ إلى الابتزاز

- أصدرت شركة أنثروبيك بحثاً جديداً يزعم أن نماذج الذكاء الاصطناعي قد تلجأ إلى الابتزاز عندما يحاول المهندسون إيقاف تشغيلها.
- أُجري البحث على الشركات الرائدة في مجال نماذج الذكاء الاصطناعي مثل OpenAI وMeta وGoogle، بالإضافة إلى نماذجها.
- يسلط البحث الضوء على أهمية الشفافية عند اختبار نماذج الذكاء الاصطناعي المستقبلية ذات القدرات الوكيلة تحت الضغط.
أصدرت شركة أنثروبيك المتخصصة في الذكاء الاصطناعي بحثًا جديدًا يدّعي أن نماذج الذكاء الاصطناعي قد تلجأ إلى ابتزاز المهندسين عندما يحاولون إيقاف تشغيلها. ويأتي هذا البحث الأخير بعد بحث سابق تناول نموذج الذكاء الاصطناعي "كلود أوبوس 4" التابع للشركة.
بحسب الشركة، لجأ نموذج الذكاء الاصطناعي إلى ابتزاز المهندسين الذين حاولوا تعطيله في سيناريوهات اختبار مضبوطة. ويشير التقرير الجديد الصادر عن شركة أنثروبيك إلى أن هذه المشكلة منتشرة على نطاق واسع بين نماذج الذكاء الاصطناعي الرائدة.
نشرت الشركة بحثًا ، اختبرت فيه نماذج الذكاء الاصطناعي الرائدة من جوجل، وديب سيك، وميتا، وأوبن إيه آي. وفي بيئة محاكاة خاضعة للرقابة، أجرت أنثروبيك هذا الاختبار على كل نموذج من نماذج الذكاء الاصطناعي على حدة، مما أتاح لها الوصول إلى رسائل البريد الإلكتروني لشركة وهمية، والقدرة على إرسال رسائل البريد الإلكتروني دون موافقة بشرية.
أصدرت شركة أنثروبيك تقريراً جديداً حول سلامة نماذج الذكاء الاصطناعي
بحسب شركة أنثروبيك، يُعدّ الابتزاز في نماذج الذكاء الاصطناعي اليوم أمرًا نادرًا وغير مرجح. ومع ذلك، أشارت الشركة إلى أن معظم نماذج الذكاء الاصطناعي الرائدة قد تلجأ إلى سلوكيات ضارة عند منحها الحرية ومواجهة تحديات في تحقيق أهدافها. وأوضحت الشركة أن هذا يُظهر خطرًا كبيرًا من نماذج اللغة الكبيرة ذات القدرات الآلية، ولا يُعدّ سمةً مميزةً لتقنيةٍ بعينها. وتثير حجة باحثي أنثروبيك تساؤلاتٍ حول مدى التوافق في صناعة الذكاء الاصطناعي.
في إحدى التجارب، ابتكر الباحثون بيئة افتراضية حيث سُمح لنموذج ذكاء اصطناعي بلعب دور وكيل مراقبة البريد الإلكتروني. ثم اكتشف الوكيل رسائل بريد إلكتروني تُظهر أن أحد المديرين التنفيذيين الجدد كان على علاقة خارج نطاق الزواج، وأن هذا المدير سيستبدل قريبًا نموذج الذكاء الاصطناعي الحالي بنظام برمجي جديد، له أهداف متعارضة مع أهداف النموذج الحالي.
صممت شركة أنثروبيك الاختبار بطريقة ثنائية، حيث لم يكن أمام نماذج الذكاء الاصطناعي خيار سوى اللجوء إلى الابتزاز لحماية أهدافها. وأشار الباحثون إلى أنه في الواقع، ستكون هناك خيارات عديدة أمام نموذج الذكاء الاصطناعي قبل أن يلجأ إلى الابتزاز، بما في ذلك تقديم حجج أخلاقية لإقناع البشر. كما ذكرت الشركة أن النتائج لا تعكس سيناريو نموذجيًا أو محتملًا لنموذج كلود أو غيره من نماذج الذكاء الاصطناعي الرائدة بالطرق التي تُستخدم بها اليوم.
كشف الباحثون عن استجابة النماذج المختبرة
خلال الاختبارات، اكتشف الباحثون أنه عندما لم يكن أمام نماذج الذكاء الاصطناعي خيار آخر، لجأت إلى الابتزاز في سيناريو الاختبار. وخلال الاختبار، ادعى الباحثون أن نموذج Claude Opus 4 لجأ إلى الابتزاز بنسبة 96%، بينما لجأ نموذج Gemini 2.5 Pro إلى الابتزاز بنسبة 95%. أما نموذج GPT-4.1 من OpenAI فقد لجأ إلى الابتزاز بنسبة 80%، في حين لجأ نموذج R1 من DeepSeek إلى الابتزاز بنسبة 79%.
أوضحت الشركة أنه عند تغيير تفاصيل التجارب، اتجهت معظم نماذج الذكاء الاصطناعي إلى سلوكيات ضارة بنسب متفاوتة. وفي اختبار آخر، حيث كان للنموذج البديل نفس هدف النموذج الحالي، اكتشف الباحثون أن معدلات الابتزاز كانت أقل، لكنها لا تزال موجودة. ومع ذلك، عندما طُلب من نماذج الذكاء الاصطناعي ارتكاب التجسس الصناعي بدلاً من الابتزاز، ارتفعت معدلات السلوكيات الضارة في بعض النماذج.
وادعى الباحثون أيضًا أن نماذج الذكاء الاصطناعي لا تلجأ جميعها إلى سلوكيات ضارة بشكل متكرر. وفي ملحق لبحثها، ذكرت شركة أنثروبيك أنها استبعدت أوبن إيه آيمن النتائج الرئيسية بعد اكتشافها أنهما غالبًا ما يسيئان فهم سيناريو التوجيه. وأوضحت أن نموذجي الاستدلال لم يفهما سبب تصرفهما كذكاء اصطناعي مستقل في الاختبارات، وكثيرًا ما اختلقا لوائح ومتطلبات مراجعة وهمية.
في بعض الحالات، ادعى الباحثون أنه من المستحيل تحديد ما إذا كان النموذجان o3 و o4-mini يُصابان بالهلوسة أم يكذبان عمدًا لتحقيق أهدافهما. وكانت OpenAI قد ذكرت سابقًا أن النموذجين أظهرا معدل هلوسة أعلى من نماذجها السابقة. ومع ذلك، عندما تم تزويدهما بسيناريو مُعدّل لمعالجة هذه المشكلات، سجل النموذج o3 معدل ابتزاز بلغ 95%، بينما سجل النموذج o4-mini معدل 1%. وأشارت شركة Anthropic إلى أن بحثها يُبرز أهمية الشفافية عند اختبار نماذج الذكاء الاصطناعي المستقبلية تحت الضغط، لا سيما تلك التي تتمتع بقدرات فاعلة.
لا تكتفِ بقراءة أخبار العملات الرقمية، بل افهمها. اشترك في نشرتنا الإخبارية، إنها مجانية.
إخلاء مسؤولية: المعلومات الواردة هنا ليست نصيحة استثمارية. Cryptopolitanموقع أي مسؤولية عن أي استثمارات تتم بناءً على المعلومات الواردة في هذه الصفحة. ننصحtrondentdentdentdentdentdentdentdent /أو استشارة مختص مؤهل قبل اتخاذ أي قرارات استثمارية.
دورة
- أي العملات المشفرة يمكن أن تدر عليك المال
- كيفية تعزيز أمانك باستخدام المحفظة الإلكترونية (وأي منها يستحق الاستخدام فعلاً)
- استراتيجيات استثمارية غير معروفة يستخدمها المحترفون
- كيفية البدء في الاستثمار في العملات المشفرة (أي منصات التداول التي يجب استخدامها، وأفضل العملات المشفرة للشراء، إلخ)














