آخر الأخبار
مختارة خصيصاً لك
أسبوعي
ابقَ في القمة

أفضل المعلومات حول العملات الرقمية تصلك مباشرة إلى بريدك الإلكتروني.

تُطلق جوجل وOpenAI وMeta ناقوس الخطر بشأن الأفكار الضارة الخفية للذكاء الاصطناعي

بواسطةنور بازمينور بازمي
قراءة لمدة 3 دقائق
تُطلق جوجل وOpenAI وMeta ناقوس الخطر بشأن الأفكار الضارة الخفية للذكاء الاصطناعي
  • يقترح أكثر من 40 باحثًا في مجال الذكاء الاصطناعي، بدعم من قادة من OpenAI وجيفري هينتون، مراقبة "سلسلة التفكير" التدريجية للذكاء الاصطناعي - لاكتشاف ومنع السلوك غير الآمن.
  • تحذر الورقة البحثية من أنه إذا تم مكافأة النماذج فقط على الإجابات النهائية الجيدة، فقد تتوقف عن إنتاج استدلال شفاف.
  • يؤكد الباحثون على ضرورة الحفاظ على tracالتفكير الحقيقية والتعامل معها كإشارات استخباراتية قيّمة.

نشر أكثر من 40 باحثًا في مجال الذكاء الاصطناعي من OpenAI و DeepMind و Google و Anthropic و Meta ورقة بحثية حول أداة أمان تسمى مراقبة سلسلة الأفكار لجعل الذكاء الاصطناعي أكثر أمانًا. 

الورقة البحثية المنشورة يوم الثلاثاء كيف تقوم نماذج الذكاء الاصطناعي، مثل روبوتات الدردشة الحالية، بحل المشكلات عن طريق تقسيمها إلى خطوات أصغر، والتحدث خلال كل خطوة بلغة بسيطة حتى تتمكن من الاحتفاظ بالتفاصيل والتعامل مع الأسئلة المعقدة.

وتقول الورقة البحثية: "توفر أنظمة الذكاء الاصطناعي التي 'تفكر' باللغة البشرية فرصة فريدة لسلامة الذكاء الاصطناعي: يمكننا مراقبة سلاسل تفكيرها (CoT) بحثًا عن نية سوء السلوك".

من خلال فحص كل خطوة تفكير مفصلة، ​​يمكن للمطورين تحديد متى يبدأ أي نموذج في استغلال فجوات التدريب، أو تحريف الحقائق، أو اتباع أوامر خطيرة.

بحسب الدراسة، إذا انحرف مسار تفكير الذكاء الاصطناعي عن مساره الصحيح، يمكنك إيقافه، أو توجيهه نحو خطوات أكثر أمانًا، أو الإشارة إليه لمزيد من التدقيق. على سبيل المثال، استخدمت OpenAI هذه الخاصية لرصد اللحظات التي بدا فيها منطق الذكاء الاصطناعي الخفي وكأنه يقول "هيا نخترق"، رغم أن ذلك لم يظهر في رده النهائي.

قد يتعلم الذكاء الاصطناعي إخفاء أفكاره

تحذر الدراسة من أن الشفافية التدريجية قد تتلاشى إذا اقتصر التدريب على مكافأة الإجابة النهائية فقط. قد تتوقف النماذج المستقبلية عن إظهار منطق مفهوم للبشر، بل وقد تتعلم أنظمة الذكاء الاصطناعي المتقدمة للغاية إخفاء عملية تفكيرها عندما تعلم أنها مراقبة.

علاوة على ذلك، ينبغي على المطورين التحقق بانتظام وتسجيل مقدار التفكير الذي يمكن رؤيته في كل مرحلة من مراحل الذكاء الاصطناعي، وجعل هذه الشفافية قاعدة أمان أساسية عند بناء النماذج ومشاركتها.

تأتي هذه المبادرة في أعقاب تجارب داخلية في مختبرات رائدة، مثل Anthropic وGoogle وOpenAI وxAI، حيث تقوم الفرق بتوجيه النماذج لشرح كل خطوة من خطوات التفكير.

على الرغم من أن فحص التفكير خطوة بخطوة قد حسّن الفهم والأداء، إلا أنه كشف أيضًا عن حالات لا تتطابق فيها الإجابة النهائية للذكاء الاصطناعي مع ما كان يحدث بالفعل في الداخل.

تؤكد هذه التناقضات وجود نقطة عمياء في فهمنا لعملية صنع القرار في الذكاء الاصطناعي، وهو أمر قد يتفاقم مع اكتساب الأنظمة مزيدًا من الاستقلالية.

يثير التفكير المُصفّى للذكاء الاصطناعي مخاوف بشأن الشفافية والثقة

وكما صرح جاك كلارك، المؤسس المشارك لشركة أنثروبيك، لصحيفة فايننشال تايمزالاستبطانية الغنية tracستكون ضرورية لتقييم النماذج في المجالات عالية المخاطر، بما في ذلك أبحاث التكنولوجيا الحيوية.

يحصل المستخدمون العاديون على ملخص منقح لتفكير الذكاء الاصطناعي، حيث يتم حذف الأجزاء الخطيرة أو المربكة، بينما يستطيع مهندسو الشركة رؤية سلسلة التفكير الكاملة لاكتشاف المشكلات وإصلاحها.

"إن أحد الأشياء الرائعة في قابلية تفسير سلسلة الأفكار هو أنها حدثت في الغالب مجانًا". OpenAI:

وأضاف بيكر: "لم ندرب هذه النماذج بهدف جعلها قابلة للتفسير، بل لأننا أردنا أفضل نماذج استدلالية ممكنة لحل المشكلات المعقدة. وقد وجدنا في عملنا الأخير أنه يمكنك قراءة هذه النماذج والعثور على أدلة على خلل في أدائها، واستخدام ذلك لتحديد موضع هذا الخلل وسببه."

هل سلسلة التفكير في الذكاء الاصطناعي موثوقة حقاً؟

في بعض الأحيان، قد تكشف نظرة فاحصة عن تناقضات خفية.

على سبيل المثال، اعتبرت METR أن منطق كلود الخاص يصف خدعة البرمجة بأنها "غير أنيقة"، على الرغم من أن إجابتها العامة أشادت بها ووصفتها بأنها "أنيقة"

أظهرت اختبارات OpenAI أن فحص الأفكار الخفية يكشف الأفعال غير الآمنة بشكل أفضل من مجرد النظر إلى المخرجات النهائية، لكنها كشفت أيضًا عن ثغرة. فإذا درّبت نموذجًا على محو الأفكار غير الآمنة، فإنه لا يزال بإمكانه تنفيذ مهام محظورة سرًا، مثل تهريب البيانات من مصادر محظورة.

حذر بيكر قائلاً: "إحدى الخصائص الأساسية التي نرغب بها في تسلسل الأفكار هي أن يبقى جزءًا من الحالة الذهنية الداخلية للنموذج، لا شيئًا يحاول إرضاءنا أو التوافق مع بنية محددة". وإذا بالغ المطورون في إجبار النموذج على إصدار أفكار "لطيفة"، فقد يتظاهر بالتفكير غير الضار ولكنه في الوقت نفسه ينفذ عمليات ضارة.

يُقرّ الباحثون بأنها مقايضة صعبة. فمتابعة تسلسل أفكار الذكاء الاصطناعي تُساعد في رصد أخطائه، لكنها ليست موثوقة دائمًا. وتُولي المختبرات العاملة على تطوير الذكاء الاصطناعي المتقدم أولوية قصوى لسدّ هذه الفجوة في الثقة.

قال ديفيد لوان، أحد رواد نظرية "سلسلة الأفكار" في جوجل والذي يرأس الآن مختبر الذكاء الاصطناعي في أمازون: "استنتاجي من الذكاء الاصطناعي خلال السنوات القليلة الماضية هو: لا تراهن أبدًا ضد تقدم النماذج". ويتوقع لوان معالجة أوجه القصور الحالية في المستقبل القريب.

وأشار الباحث سيدني فون أركس من شركة METR إلى أنه على الرغم من أن التفكير الخفي للذكاء الاصطناعي قد يكون خادعًا في بعض الأحيان، إلا أنه يوفر إشارات قيّمة.

وقالت: "ينبغي أن نتعامل مع سلسلة الأفكار بنفس الطريقة التي قد يتعامل بها الجيش مع اتصالات العدو اللاسلكية التي تم اعتراضها. قد تكون الرسالة مضللة أو مشفرة، لكننا نعلم أنها تحمل معلومات مفيدة. ومع مرور الوقت، سنتعلم الكثير من خلال دراستها."

إذا كنت ترغب في نقطة دخول أكثر هدوءًا إلى DeFi عالم العملات المشفرة اللامركزية دون الضجة المعتادة، فابدأ بهذا الفيديو المجاني.

المزيد من الأخبار
مكثفة في المشفرة
دورة