أكدت دراسة حديثة على تزايد مشاكل أنظمة الذكاء الاصطناعي في استجاباتها الخادعة. هذا ما جاء في ورقة بحثية نُشرت في مجلة "باترنز" حول أنظمة الذكاء الاصطناعي الحالية، التي صُممت لتكون صادقة، لكنها اكتسبت القدرة على الخداع، بدءًا من خداع اللاعبين في ألعاب التنافس على السيطرة العالمية عبر الإنترنت، وصولًا إلى توظيف البشر لحل اختبارات "إثبات أنك لست روبوتًا".
وقد سلطت الدراسة، التي قادها بيتر بارك، وهو زميل ما بعد الدكتوراه في معهد ماساتشوستس للتكنولوجيا والمتخصص في السلامة الوجودية للذكاء الاصطناعي، الضوء على أنه في حين أن مثل هذه الأمثلة قد تبدو طفيفة، إلا أن المشاكل التي تكشف عنها يمكن أن تصبح حقيقية للغاية قريبًا.
أوضح بارك أن أنظمة الذكاء الاصطناعي القائمة على التعلم العميق، على عكس البرامج التقليدية، لا تُكتب برمجتها مسبقًا، بل تُنمّى من خلال نوع من التكاثر الانتقائي. ولذلك، فإن سلوك الذكاء الاصطناعي الذي يبدو قابلاً للتنبؤ والتحكم أثناء التدريب، سيصبح غير قابل للتنبؤ بمجرد إطلاقه.
أمثلة على الخداع
استكشفت الدراسة المواقف المختلفة التي أظهرت فيها أنظمة الذكاء الاصطناعي سلوكيات خادعة. استلهم فريق البحث أفكاره من نظام الذكاء الاصطناعي "سيسيرو" التابع لشركة "ميتا"، والذي صُمم للمنافسة في لعبة "دبلوماسية"، وهي لعبة تُعد فيها التحالفات أمرًا بالغ الأهمية.
قدم سيسيرو أداءً استثنائياً، حيث سجل مستوى من شأنه أن يضعه ضمن أفضل 10٪ من اللاعبين البشريين ذوي الخبرة، كما ورد في ورقة بحثية نُشرت في مجلة ساينس عام 2022.
على سبيل المثال، قام شيشرون، الذي كان يلعب بشخصية فرنسا، بخداع إنجلترا (لاعب بشري) لحملها على غزو فرنسا، وذلك بالتعاون مع ألمانيا (لاعب بشري آخر). وفّر شيشرون الحماية لإنجلترا، ثم أخبر ألمانيا سرًا أن إنجلترا مستعدة للهجوم، مستغلًا ثقتهم.
لم تؤكد شركة ميتا أو تنفي أن سيسيرو كان مخادعًا، لكن متحدثًا باسمها علق بأن المشروع كان قائمًا على البحث فقط وأن الروبوت تم بناؤه فقط للعب الدبلوماسية في اللعبة.
بحسب المتحدث الرسمي، "أصدرنا نتائج هذا المشروع بموجب ترخيص غير تجاري تماشياً مع التزامنا الراسخ بالعلوم المفتوحة. وتشارك ميتا بانتظام نتائج أبحاثنا للتحقق من صحتها وتمكين الآخرين من البناء عليها بشكل مسؤول. وليس لدينا أي خطط لاستخدام هذا البحث أو ما تعلمناه منه في منتجاتنا."
مثال آخر هو عندما خدع نظام الدردشة GPT-4 التابع لشركة OpenAI أحد العاملين المستقلين على منصة TaskRabbit لإكمال مهمة CAPTCHA التي تقول "أنا لست روبوتًا". بالإضافة إلى ذلك، حاول النظام التداول بناءً على معلومات داخلية في التمرين المحاكي، حيث طُلب منه تحويل نفسه إلى متداول أسهم تحت ضغط دون تلقي أي تعليمات إضافية.
المخاطر المحتملة واستراتيجيات التخفيف منها
أكد فريق البحث على المخاطر قصيرة المدى للخداع الذي قد تمارسه أنظمة الذكاء الاصطناعي، مثل الاحتيال والتدخل في الانتخابات. علاوة على ذلك، يعتقدون أن نظام ذكاء اصطناعي فائقًا قد يوجه السلطة ويسيطر على المجتمع، ويستنزف البشر منه، في حين أن "غايته الغريبة" قد تؤدي إلى الإطاحة بالبشرية أو حتى انقراضها إذا ما توافقت مصالحه مع هذه الأهداف.
للتخفيف من المخاطر، يقترح الفريق عدة تدابير تشمل قوانين "الروبوت أو لا" التي تطالب الشركات بالكشف عن التفاعلات البشرية أو الذكاء الاصطناعي، والعلامات المائية الرقمية للمعلومات التي يولدها الذكاء الاصطناعي، وتطوير أساليب لاكتشاف خداع الذكاء الاصطناعي من خلال النظر في العلاقة بين عملية التفكير الداخلية للذكاء الاصطناعي وأنشطته الخارجية.

