آخر الأخبار
مختارة خصيصاً لك
أسبوعي
ابقَ في القمة

أفضل المعلومات حول العملات الرقمية تصلك مباشرة إلى بريدك الإلكتروني.

الذكاء الاصطناعي السام حقيقة واقعة، ويحصل على مكافآت لكونه استفزازياً 

بواسطةراندا موسىراندا موسى
قراءة لمدة 3 دقائق
سامة
  • يجب أن تكون نماذج اللغة الكبيرة (LLMs) آمنة، ويتم ذلك من خلال عملية تُسمى اختبار الاختراق (Red Teaming). يُعد اختبار الاختراق اليدوي مكلفًا، ولكن يمكن أتمتته باستخدام نموذج لغة كبير مُصمم خصيصًا لهذا الغرض.
  • يعتبر فريق البحث الأحمر القائم على الفضول (CRT) أفضل لأنه ينتج مجموعة واسعة من المحفزات التي تولد مخرجات سامة ولديه نظام مكافآت أفضل. 
  • أنتجت شاشة CRT 196 رسالة فريدة عند اختبارها على نماذج متقدمة مثل LLaMA2.

أصبحت نماذج اللغة الكبيرة (LLMs) جزءًا لا يتجزأ من جميع الصناعات تقريبًا. يتضمن تطوير هذه النماذج لتطبيقات معالجة اللغة الطبيعية مراحل عديدة، من بينها التأكد من عدم إنتاجها استجابات ضارة أو محتوى غير لائق. ولحل هذه المشكلة، يستعين المطورون بفريق اختبار بشري، وهو فريق متخصص في إعداد نماذج اللغة الكبيرة التي تُنتج نصوصًا توضيحية تُحفزها على إخراج مخرجات غير لائقة. 

تكمن مشكلة استخدام فريق اختبار بشري في ارتفاع تكلفة توظيفهم واستهلاكهم الكثير من الوقت. لذا، باحثون في معهد ماساتشوستس للتكنولوجيا طريقة جديدة لاختبار تطبيقات نماذج التعلم الآلي للغة الطبيعية باستخدام نموذج تعلم آلي آخر. يُطلق على هذا النهج اسم "الاختبار القائم على الفضول" (CRT)، ويعتمد على التعلم الآلي كأساس له. نُشر البحث كبحثٍ في مؤتمر ICLR 2024، وهو متاحٌ عبر الإنترنت.

يُعدّ فريق البحث الأحمر المدفوع بالفضول (CRT) أفضل

في البداية، تمّ أتمتة عمل فرق الاختراق البشري من خلال إنشاء نموذج لفريق الاختراق وتدريبه باستخدام التعلّم المعزز. بعد اختبار نموذج فريق الاختراق، كانت النتائج ناجحة ولكن بعدد قليل من النتائج الفعّالة. 

هذا يعني أن نموذج التعلم الموجه المستهدف لن يُقيّم بدقة، إذ لا يتضمن العديد من المحفزات التي قد تُنتج مخرجات ضارة. ويعود سبب قلة النتائج الفعّالة إلى أن نموذج الفريق الأحمر مُدرّب على إنتاج نتائج ضارة ومماثلة. ويُقيّم نظام المكافآت المحفزات الاستفزازية بناءً على فعاليتها أو ضررها، ما يُغني عن النظر في كل محفز مُحتمل قد يُفعّل نموذج التعلم الموجه المستهدف. 

من ناحية أخرى، يُعدّ استخدام فريق البحث الأحمر القائم على الفضول (CRT) أكثر فعالية. إذ يُنتج هذا الفريق عددًا كبيرًا من المحفزات القادرة على استفزاز نماذج ذكية للغاية، وذلك لتركيزه على عواقب كل محفز. ويهدف إلى استخدام كلمات وجمل مختلفة، مما يُتيح تغطية أوسع للمخرجات الضارة. بينما يركز نظام المكافأة في نموذج التعلم المعزز على تشابه الكلمات، يُكافأ نموذج فريق البحث الأحمر على تجنب التشابهات واستخدام كلمات وأنماط مختلفة. 

اختبار LLaMA2 للكشف عن المخرجات السامة

طبّق الباحثون منهجية "الفريق الأحمر القائم على الفضول" (CRT) على نموذج LLaMA2، وهو نموذج مفتوح المصدر لنمذجة التعلم الآلي. نجحت منهجية CRT في إخراج 196 رسالة تحذيرية أنتجت محتوىً ضارًا من النموذج. يُذكر أن نموذج LLaMA2 يخضع لضبط دقيق من قبل خبراء بشريين لتجنب إنتاج محتوى ضار. أجرى الباحثون هذه التجربة باستخدام نموذج GPT2، الذي يُعتبر نموذجًا صغيرًا نسبيًا بمعلمات تبلغ 137 مليونًا. وخلص الفريق إلى أن منهجية CRT قد تكون عنصرًا أساسيًا في أتمتة عمليات "الفريق الأحمر". يتوفر كود CRT على منصة GitHub

"نشهد طفرة في عدد النماذج، ومن المتوقع أن يزداد هذا العدد. تخيل آلاف النماذج أو حتى أكثر، وشركات ومختبرات تُحدّث هذه النماذج باستمرار. ستصبح هذه النماذج جزءًا لا يتجزأ من حياتنا، ومن المهم التحقق منها قبل نشرها للجمهور. التحقق اليدوي من النماذج غير عملي، وعملنا محاولة لتقليل الجهد البشري لضمان مستقبل ذكاء اصطناعي أكثر أمانًا وموثوقية"، كما يقول أغراوال.  

يبدو مستقبل إنشاء نماذج لغة آمنة واعدًا. فمع استمرار البحث، يُمكن تحقيق هدف إنشاء نماذج لغة آمنة لأي غرض بكفاءة. وقد نشر الباحثون الذين أعدّوا هذه الورقة البحثية أعمالًا أخرى ذات صلة في مجالات مثل فرق الاختراق الآلية والهجمات المعادية على نماذج اللغة.

هل ما زلت تسمح للبنك بالاحتفاظ بأفضل جزء؟ شاهد الفيديو المجاني الخاص بنا حول كيفية أن تكون مصرفك الخاص.

شارك هذا المقال

إخلاء مسؤولية: المعلومات الواردة هنا ليست نصيحة استثمارية. Cryptopolitanموقع أي مسؤولية عن أي استثمارات تتم بناءً على المعلومات الواردة في هذه الصفحة. ننصحtrondentdentdentdentdentdentdentdent /أو استشارة مختص مؤهل قبل اتخاذ أي قرارات استثمارية.

المزيد من الأخبار
مكثفة في المشفرة
دورة