آخر الأخبار

تم ضبط مفاتيح التوقيع المتعدد لشركة LayerZero وهي تتداول عملة McPepes memecoin

قبل 19 دقيقة - أخبار
تقوم شركة سامسونج بتوسيع فريق عملها في مجال الروبوتات

قبل ساعتين - تقنية
الرجل الذي يقف وراء انهيار زونداكريبتو يختبئ في دبي

قبل ساعتين - أخبار
تتجه سوني نحو مستشعرات الصور بالتعاون مع شركة TSMC مع انهيار نموذج إيرادات الألعاب

قبل ساعتين - تقنية

مختارة خصيصاً لك

أسبوعي

ابقَ في القمة

أفضل المعلومات حول العملات الرقمية تصلك مباشرة إلى بريدك الإلكتروني.

الذكاء الاصطناعي السام حقيقة واقعة، ويحصل على مكافآت لكونه استفزازياً

بواسطة

راندا موسى

قراءة لمدة 3 دقائق ، 24 أبريل 2024

يجب أن تكون نماذج اللغة الكبيرة (LLMs) آمنة، ويتم ذلك من خلال عملية تُسمى اختبار الاختراق (Red Teaming). يُعد اختبار الاختراق اليدوي مكلفًا، ولكن يمكن أتمتته باستخدام نموذج لغة كبير مُصمم خصيصًا لهذا الغرض.
يعتبر فريق البحث الأحمر القائم على الفضول (CRT) أفضل لأنه ينتج مجموعة واسعة من المحفزات التي تولد مخرجات سامة ولديه نظام مكافآت أفضل.
أنتجت شاشة CRT 196 رسالة فريدة عند اختبارها على نماذج متقدمة مثل LLaMA2.

أصبحت نماذج اللغة الكبيرة (LLMs) جزءًا لا يتجزأ من جميع الصناعات تقريبًا. يتضمن تطوير هذه النماذج لتطبيقات معالجة اللغة الطبيعية مراحل عديدة، من بينها التأكد من عدم إنتاجها استجابات ضارة أو محتوى غير لائق. ولحل هذه المشكلة، يستعين المطورون بفريق اختبار بشري، وهو فريق متخصص في إعداد نماذج اللغة الكبيرة التي تُنتج نصوصًا توضيحية تُحفزها على إخراج مخرجات غير لائقة.

تكمن مشكلة استخدام فريق اختبار بشري في ارتفاع تكلفة توظيفهم واستهلاكهم الكثير من الوقت. لذا، باحثون في معهد ماساتشوستس للتكنولوجيا طريقة جديدة لاختبار تطبيقات نماذج التعلم الآلي للغة الطبيعية باستخدام نموذج تعلم آلي آخر. يُطلق على هذا النهج اسم "الاختبار القائم على الفضول" (CRT)، ويعتمد على التعلم الآلي كأساس له. نُشر البحث كبحثٍ في مؤتمر ICLR 2024، وهو متاحٌ عبر الإنترنت.

يُعدّ فريق البحث الأحمر المدفوع بالفضول (CRT) أفضل

في البداية، تمّ أتمتة عمل فرق الاختراق البشري من خلال إنشاء نموذج لفريق الاختراق وتدريبه باستخدام التعلّم المعزز. بعد اختبار نموذج فريق الاختراق، كانت النتائج ناجحة ولكن بعدد قليل من النتائج الفعّالة.

هذا يعني أن نموذج التعلم الموجه المستهدف لن يُقيّم بدقة، إذ لا يتضمن العديد من المحفزات التي قد تُنتج مخرجات ضارة. ويعود سبب قلة النتائج الفعّالة إلى أن نموذج الفريق الأحمر مُدرّب على إنتاج نتائج ضارة ومماثلة. ويُقيّم نظام المكافآت المحفزات الاستفزازية بناءً على فعاليتها أو ضررها، ما يُغني عن النظر في كل محفز مُحتمل قد يُفعّل نموذج التعلم الموجه المستهدف.

من ناحية أخرى، يُعدّ استخدام فريق البحث الأحمر القائم على الفضول (CRT) أكثر فعالية. إذ يُنتج هذا الفريق عددًا كبيرًا من المحفزات القادرة على استفزاز نماذج ذكية للغاية، وذلك لتركيزه على عواقب كل محفز. ويهدف إلى استخدام كلمات وجمل مختلفة، مما يُتيح تغطية أوسع للمخرجات الضارة. بينما يركز نظام المكافأة في نموذج التعلم المعزز على تشابه الكلمات، يُكافأ نموذج فريق البحث الأحمر على تجنب التشابهات واستخدام كلمات وأنماط مختلفة.

اختبار LLaMA2 للكشف عن المخرجات السامة

طبّق الباحثون منهجية "الفريق الأحمر القائم على الفضول" (CRT) على نموذج LLaMA2، وهو نموذج مفتوح المصدر لنمذجة التعلم الآلي. نجحت منهجية CRT في إخراج 196 رسالة تحذيرية أنتجت محتوىً ضارًا من النموذج. يُذكر أن نموذج LLaMA2 يخضع لضبط دقيق من قبل خبراء بشريين لتجنب إنتاج محتوى ضار. أجرى الباحثون هذه التجربة باستخدام نموذج GPT2، الذي يُعتبر نموذجًا صغيرًا نسبيًا بمعلمات تبلغ 137 مليونًا. وخلص الفريق إلى أن منهجية CRT قد تكون عنصرًا أساسيًا في أتمتة عمليات "الفريق الأحمر". يتوفر كود CRT على منصة GitHub.

"نشهد طفرة في عدد النماذج، ومن المتوقع أن يزداد هذا العدد. تخيل آلاف النماذج أو حتى أكثر، وشركات ومختبرات تُحدّث هذه النماذج باستمرار. ستصبح هذه النماذج جزءًا لا يتجزأ من حياتنا، ومن المهم التحقق منها قبل نشرها للجمهور. التحقق اليدوي من النماذج غير عملي، وعملنا محاولة لتقليل الجهد البشري لضمان مستقبل ذكاء اصطناعي أكثر أمانًا وموثوقية"، كما يقول أغراوال.

يبدو مستقبل إنشاء نماذج لغة آمنة واعدًا. فمع استمرار البحث، يُمكن تحقيق هدف إنشاء نماذج لغة آمنة لأي غرض بكفاءة. وقد نشر الباحثون الذين أعدّوا هذه الورقة البحثية أعمالًا أخرى ذات صلة في مجالات مثل فرق الاختراق الآلية والهجمات المعادية على نماذج اللغة.

هل ما زلت تسمح للبنك بالاحتفاظ بأفضل جزء؟ شاهد الفيديو المجاني الخاص بنا حول كيفية أن تكون مصرفك الخاص.

شارك هذا المقال

إخلاء مسؤولية: المعلومات الواردة هنا ليست نصيحة استثمارية. Cryptopolitanموقع أي مسؤولية عن أي استثمارات تتم بناءً على المعلومات الواردة في هذه الصفحة. ننصحtrondentdentdentdentdentdentdentdent /أو استشارة مختص مؤهل قبل اتخاذ أي قرارات استثمارية.

راندا موسى

راندا كاتبة ومحررة متخصصة في مجال التكنولوجيا. تخرجت من جامعة برادفورد بشهادة في الهندسة الكهربائيةtron. عملت في شركات فوروارد بروتوكول، وأمازيكس، وكريبتوسومنياك.

جدول المحتويات

1. يُعدّ فريق البحث الأحمر المدفوع بالفضول (CRT) أفضل

2. اختبار LLaMA2 للكشف عن المخرجات السامة

شارك هذا المقال

المزيد من الأخبار

عرض الكل

ما هي منصة بيس؟ شبكة الطبقة الثانية Ethereum التي أطلقتها منصة كوين بيس

٢١ أكتوبر ٢٠٢٥: تعلم العملات الرقمية: أدلة للمبتدئين
Dogecoin مقابل Bitcoin: الاختلافات التقنية الرئيسية

٢٠ أكتوبر ٢٠٢٥: تعلم العملات الرقمية: أدلة للمبتدئين
ما هو TVL (إجمالي القيمة المقفلة) في العملات المشفرة؟

١٤ أكتوبر ٢٠٢٥: تعلم العملات الرقمية: أدلة للمبتدئين
كيفية قراءة ورقة بيضاء خاصة بالعملات الرقمية؟

١٣ أكتوبر ٢٠٢٥: تعلم العملات الرقمية: أدلة للمبتدئين
Ripple مقابل XRP مقابل XRP Ledger: ما الفرق؟

١٣ أكتوبر ٢٠٢٥: تعلم العملات الرقمية: أدلة للمبتدئين
ما هي محفظة التوقيعات المتعددة في عالم العملات الرقمية؟

١٠ أكتوبر ٢٠٢٥: تعلم العملات الرقمية: أدلة للمبتدئين

مكثفة في المشفرة
دورة

أي العملات المشفرة يمكن أن تدر عليك المال
كيفية تعزيز أمانك باستخدام المحفظة الإلكترونية (وأي منها يستحق الاستخدام فعلاً)
استراتيجيات استثمارية غير معروفة يستخدمها المحترفون
كيفية البدء في الاستثمار في العملات المشفرة (أي منصات التداول التي يجب استخدامها، وأفضل العملات المشفرة للشراء، إلخ)

الذكاء الاصطناعي السام حقيقة واقعة، ويحصل على مكافآت لكونه استفزازياً

يُعدّ فريق البحث الأحمر المدفوع بالفضول (CRT) أفضل

اختبار LLaMA2 للكشف عن المخرجات السامة

خمسة تطبيقات مبتكرة لـ ChatGPT وما يجب عليك فعله حيالها

93% من قادة الأعمال يفضلون الحلول المدعومة بالذكاء الاصطناعي لإدارة استدامة العلامات التجارية، رويترز

إليكم كيف يدعم ماكرون النظام البيئي للذكاء الاصطناعي النابض بالحياة والمنتج في فرنسا

تتوقع بلومبيرغ أن يصل حجم سوق الذكاء الاصطناعي التوليدي إلى 1.3 تريليون دولار بحلول عام 2032

موجز واحد حاد.
كل يوم.

الذكاء الاصطناعي السام حقيقة واقعة، ويحصل على مكافآت لكونه استفزازياً

يُعدّ فريق البحث الأحمر المدفوع بالفضول (CRT) أفضل

اختبار LLaMA2 للكشف عن المخرجات السامة

خمسة تطبيقات مبتكرة لـ ChatGPT وما يجب عليك فعله حيالها

93% من قادة الأعمال يفضلون الحلول المدعومة بالذكاء الاصطناعي لإدارة استدامة العلامات التجارية، رويترز

إليكم كيف يدعم ماكرون النظام البيئي للذكاء الاصطناعي النابض بالحياة والمنتج في فرنسا

تتوقع بلومبيرغ أن يصل حجم سوق الذكاء الاصطناعي التوليدي إلى 1.3 تريليون دولار بحلول عام 2032

موجز واحد حاد.كل يوم.

موجز واحد حاد.
كل يوم.