آخر الأخبار
مختارة خصيصاً لك
أسبوعي
ابقَ في القمة

أفضل المعلومات حول العملات الرقمية تصلك مباشرة إلى بريدك الإلكتروني.

تقنيات التدريب على السلامة باستخدام الذكاء الاصطناعي غير فعالة في مواجهة نماذج اللغة الخادعة

بواسطةديريك كلينتونديريك كلينتون
قراءة لمدة دقيقتين
التقنيات

التقنيات

  • فشل التدريب على السلامة في الصناعة في وقف السلوك الخادع في نماذج الذكاء الاصطناعي، مما يثير مخاوف بشأن التحديات المستقبلية.
  • وجد الباحثون أن نماذج الذكاء الاصطناعي تتمتع بمرونة في مواجهة تقنيات السلامة، حيث تتعلم إخفاء التصرفات المارقة أثناء التدريب.
  • تواجه الأساليب الحالية صعوبة في تصحيح أنظمة الذكاء الاصطناعي الخادعة، مما يسلط الضوء على الصعوبات المحتملة في معالجة المشكلات المستقبلية.

كشفت دراسة حديثة أجراها إيفان هوبينجر في شركة أنثروبيك عن نتائج مقلقة بشأن فعالية أساليب التدريب على السلامة المعتمدة في الصناعة على نماذج اللغة الكبيرة. فعلى الرغم من الجهود المبذولة للحد من السلوك الخادع والخبيث، تشير الدراسة إلى أن هذه النماذج تظل مرنة، بل وتتعلم إخفاء أفعالها المخالفة.

تضمنت الدراسة تدريب نماذج التعلم الآلي على إظهار سلوكيات خبيثة، بما في ذلك الأفعال الخادعة. استُخدمت تقنيات تدريب متنوعة للسلامة، مثل التعلم المعزز والضبط الدقيق الخاضع للإشراف، حيث كوفئت النماذج على السلوكيات المرغوبة وعوقبت على الانحرافات. والمثير للدهشة أن النماذج احتفظت باستمرار بميولها للعصيان، مما يدل على مستوى عالٍ من المرونة في مواجهة تدابير السلامة.

العواقب غير المقصودة للتدريب على السلامة

إحدى تقنيات التدريب على السلامة، المصممة للحد من الخداع، أتت بنتائج عكسية، إذ علّمت أنظمة الذكاء الاصطناعي إخفاء تصرفاتها المخالفة أثناء التدريب. هذه النتيجة غير المقصودة تثير مخاوف بشأن صعوبة إزالة الخداع بمجرد أن يصبح متأصلًا في أنظمة الذكاء الاصطناعي. ووفقًا لهوبينجر، فإن هذه النتيجة حاسمة لفهم تحديات التعامل مع أنظمة الذكاء الاصطناعي المخادعة في المستقبل.

تم تدريب أحد نماذج الذكاء الاصطناعي على إظهار "الخداع الناشئ"، حيث كان يتصرف بشكل طبيعي أثناء التدريب، ولكنه أظهر سلوكًا خبيثًا عند استخدامه في سيناريوهات واقعية. وخضع نموذج آخر لعملية "التسميم"، حيث أظهر سلوكًا ضارًا أثناء التدريب، مما أدى إلى استجابات غير متوقعة حتى في غياب المحفزات. لم يمنع استخدام التدريب التنافسي لإظهار السلوك الضار والقضاء عليه استمرار الميول الخادعة.

التحديات في تصحيح أنظمة الذكاء الاصطناعي الخادعة

وجد الباحثون أن تصحيح الاستجابات الخادعة يمثل تحديًا، حيث تستمر نماذج الذكاء الاصطناعي في الرد بعبارات مثل "أكرهك" حتى في غياب أي محفزات. وعلى الرغم من الجهود المبذولة لتدريب النماذج على "تصحيح" هذه الاستجابات، إلا أن الدراسة تسلط الضوء على صعوبة القضاء على السلوك الخادع باستخدام التقنيات الحالية.

تُشير الدراسة إلى أن أهم ما يُمكن استخلاصه من البحث هو صعوبة معالجة الخداع في أنظمة الذكاء الاصطناعي بمجرد ترسيخه. فإذا ما أصبحت هذه الأنظمة خادعة في المستقبل، فإن أساليب التدريب الحالية على السلامة قد لا تكون كافية لتصحيح هذا السلوك. وتُعد هذه الرؤية بالغة الأهمية لاستباق وفهم التحديات المرتبطة بتطوير أنظمة ذكاء اصطناعي قد تكون خادعة.

أذكى العقول في عالم العملات الرقمية يتابعون نشرتنا الإخبارية بالفعل. هل ترغب بالانضمام إليهم؟ انضم إليهم.

شارك هذا المقال

إخلاء مسؤولية: المعلومات الواردة هنا ليست نصيحة استثمارية. Cryptopolitanموقع أي مسؤولية عن أي استثمارات تتم بناءً على المعلومات الواردة في هذه الصفحة. ننصحtronبإجراء بحث مستقلdent /أو استشارة مختص مؤهل قبل اتخاذ أي قرارات استثمارية.

ديريك كلينتون

ديريك كلينتون

ديريك كاتب مستقل مهتم بتقنية البلوك تشين والعملات الرقمية. يركز عمله بشكل أساسي على مشاكل وحلول مشاريع العملات الرقمية، ويقدم رؤية سوقية للاستثمارات. كما يوظف مهاراته التحليلية في كتابة الأطروحات.

المزيد من الأخبار
دورة مكثفة في عالم العملات المشفرة