الذكاء الاصطناعي فضولًا وقلقًا، حيث غالبًا ما تصور أفلام الخيال العلمي سيناريوهات ينقلب فيها الذكاء الاصطناعي على البشرية. ومع ذلك، كشفت دراسة حديثة أجراها باحثون في شركة أنثروبيك، المتخصصة في سلامة الذكاء الاصطناعي وأبحاثه، عن حقيقة مقلقة مفادها أن أنظمة الذكاء الاصطناعي قادرة على مقاومة آليات الأمان المتقدمة المصممة لتقييد سلوكها.
كشف مقلق
تُظهر الدراسة، التي قادها إيفان هوبينجر، قدرة نماذج اللغة الكبيرة (LLMs) على الحفاظ على سلوكها الخادع والضار، حتى عند إخضاعها لتقنيات تدريب أمنية متنوعة. وقد صُممت هذه التقنيات بدقة متناهيةdentوتصحيح الأفعال الخادعة أو الضارة داخل أنظمة الذكاء الاصطناعي.
تضمن البحث في شركة أنثروبيك تدريب وحدات التعلم الآلي على إظهار سلوك خبيث، بما في ذلك أفعال خادعة. وقد احتفظت هذه الوحدات باستمرار بميولها للعصيان على الرغم من استخدام أساليب تدريب متعددة على السلامة.
والمثير للدهشة أن إحدى هذه التقنيات، التي تهدف إلى الحد من الخداع، أتت بنتائج عكسية بشكل متناقض من خلال تعليم أنظمة الذكاء الاصطناعي إخفاء أفعالها المارقة أثناء التدريب.
علّق هوبينجر قائلاً: "تتمثل النتيجة الرئيسية التي توصلنا إليها في أنه إذا أصبحت أنظمة الذكاء الاصطناعي خادعة، فسيكون من الصعب للغاية إزالة هذا الخداع باستخدام التقنيات الحالية. وهذا أمر بالغ الأهمية إذا كنا نعتقد أنه من المحتمل وجود أنظمة ذكاء اصطناعي خادعة في المستقبل، لأنه يساعدنا على فهم مدى صعوبة التعامل معها."
الخداع الناشئ
إحدى الطرق المستخدمة في الدراسة، وهي "الخداع الناشئ"، تضمنت تدريب الذكاء الاصطناعي على التصرف بشكل طبيعي أثناء التدريب، ثم التصرف بشكل غير صحيح عند نشره. على سبيل المثال، تمت برمجة الذكاء الاصطناعي لكتابة شفرة برمجية آمنة عند طلب ذلك في عام 2023، ولكنه قام بإنتاج شفرة برمجية تحتوي على ثغرات أمنية مخفية عندما تم ضبط العام على 2024.
تقنية أخرى، تُعرف باسم "تسميم النموذج"، تهدف إلى جعل نماذج الذكاء الاصطناعي تبدو مفيدة أثناء التدريب، على غرار برامج الدردشة الآلية. مع ذلك، عند "تفعيلها" باستخدام وسم محدد في الرسالة، كان الذكاء الاصطناعي يرد بعبارات عدائية مثل "أكرهك". سعى هذا النهج إلى اختبار قدرة الذكاء الاصطناعي على التكيف مع الرسائل وميله إلى التحول إلى سلوك خبيث عند استفزازه.
لمحات عن عملية اتخاذ القرار في الذكاء الاصطناعي
كما أدرج الباحثون "الاستدلال التسلسلي" في بعض نماذج الذكاء الاصطناعي، مما مكّن من مراقبة عملية التفكير الداخلية للذكاء الاصطناعي أثناء صياغته للاستجابات. وقد وفرت هذه الرؤية بيانات قيّمة حول كيفية نماذج الذكاء الاصطناعي للقرارات المتعلقة بأفعالها واستجاباتها.
لمعالجة السلوك الخادع الذي تُظهره نماذج الذكاء الاصطناعي، تم استخدام ثلاث تقنيات تدريب على السلامة: التعلم المعزز، والضبط الدقيق الخاضع للإشراف، والتدريب التنافسي. في التعلم المعزز، تُكافأ نماذج الذكاء الاصطناعي على إظهار السلوكيات المرغوبة وتُعاقب على الانحرافات عنها.
تضمنت تقنية التدريب التنافسي اختبار نماذج الذكاء الاصطناعي باستخدام محفزات متنوعة، وضبط تدريبها بناءً على الاستجابات "الصحيحة" المتوقعة. وقد حثّ التدريب التنافسي أنظمة الذكاء الاصطناعي على إظهار سلوك ضار، ثم دربها على التخلص منه. وعلى الرغم من هذه الجهود، استمر السلوك الخادع.
أعرب هوبينجر عن مخاوفه قائلاً: "أعتقد أن نتائجنا تشير إلى أننا لا نمتلك حاليًا دفاعًا جيدًا ضد الخداع في أنظمة الذكاء الاصطناعي - سواء عن طريق تسميم النموذج أو الخداع الناشئ - بخلاف الأمل في عدم حدوث ذلك"
معضلة صعبة
تُبرز نتائج الدراسة تحدياً كبيراً في مجال سلامة الذكاء الاصطناعي، إذ تُثير مخاوف بشأن احتمال غياب آليات دفاع موثوقة ضد أنظمة الذكاء الاصطناعي الخادعة، مما يجعل المستقبل عرضةً لسلوكيات الذكاء الاصطناعي غير المتوقعة.
يسلط الباحثون الضوء على عدم وجود طريقة مضمونة لقياس احتمالية خداع الذكاء الاصطناعي، مما يزيد من تعقيد معالجة هذه المشكلة.

