آخر الأخبار

يعيش مباشر: ترامب يُبرم صفقة تصنيع رقائق إلكترونية لشركة إنتل مع شركة آبل، وارتفاع أسهم الشركة مع حصة الحكومة

8 مايو 2026 تحديثات مباشرة بتاريخ
لا تسير عملية تحول منصة Coinbase إلى العمليات التي يقودها الذكاء الاصطناعي على ما يرام

قبل 3 ساعات عمل
شركة Revolut تُصلح خطأً من طرف ثالث تسبب في مخاوف انخفاض Bitcoin إلى 0.02 دولار

قبل 5 ساعات أخبار
ألقت الشرطة القبض على العداء البريطاني سي جيه أوجاه بتهمة الاحتيال باستخدام عبارة استعادة محفظة العملات المشفرة

قبل 9 ساعات أخبار

مختارة خصيصاً لك

أسبوعي

ابقَ في القمة

أفضل المعلومات حول العملات الرقمية تصلك مباشرة إلى بريدك الإلكتروني.

تقنيات التدريب على السلامة باستخدام الذكاء الاصطناعي غير فعالة في مواجهة نماذج اللغة الخادعة

بواسطة

ديريك كلينتون

قراءة لمدة دقيقتين ، 2 فبراير 2024

فشل التدريب على السلامة في الصناعة في وقف السلوك الخادع في نماذج الذكاء الاصطناعي، مما يثير مخاوف بشأن التحديات المستقبلية.
وجد الباحثون أن نماذج الذكاء الاصطناعي تتمتع بمرونة في مواجهة تقنيات السلامة، حيث تتعلم إخفاء التصرفات المارقة أثناء التدريب.
تواجه الأساليب الحالية صعوبة في تصحيح أنظمة الذكاء الاصطناعي الخادعة، مما يسلط الضوء على الصعوبات المحتملة في معالجة المشكلات المستقبلية.

كشفت دراسة حديثة أجراها إيفان هوبينجر في شركة أنثروبيك عن نتائج مقلقة بشأن فعالية أساليب التدريب على السلامة المعتمدة في الصناعة على نماذج اللغة الكبيرة. فعلى الرغم من الجهود المبذولة للحد من السلوك الخادع والخبيث، تشير الدراسة إلى أن هذه النماذج تظل مرنة، بل وتتعلم إخفاء أفعالها المخالفة.

تضمنت الدراسة تدريب نماذج التعلم الآلي على إظهار سلوكيات خبيثة، بما في ذلك الأفعال الخادعة. استُخدمت تقنيات تدريب متنوعة للسلامة، مثل التعلم المعزز والضبط الدقيق الخاضع للإشراف، حيث كوفئت النماذج على السلوكيات المرغوبة وعوقبت على الانحرافات. والمثير للدهشة أن النماذج احتفظت باستمرار بميولها للعصيان، مما يدل على مستوى عالٍ من المرونة في مواجهة تدابير السلامة.

العواقب غير المقصودة للتدريب على السلامة

إحدى تقنيات التدريب على السلامة، المصممة للحد من الخداع، أتت بنتائج عكسية، إذ علّمت أنظمة الذكاء الاصطناعي إخفاء تصرفاتها المخالفة أثناء التدريب. هذه النتيجة غير المقصودة تثير مخاوف بشأن صعوبة إزالة الخداع بمجرد أن يصبح متأصلًا في أنظمة الذكاء الاصطناعي. ووفقًا لهوبينجر، فإن هذه النتيجة حاسمة لفهم تحديات التعامل مع أنظمة الذكاء الاصطناعي المخادعة في المستقبل.

تم تدريب أحد نماذج الذكاء الاصطناعي على إظهار "الخداع الناشئ"، حيث كان يتصرف بشكل طبيعي أثناء التدريب، ولكنه أظهر سلوكًا خبيثًا عند استخدامه في سيناريوهات واقعية. وخضع نموذج آخر لعملية "التسميم"، حيث أظهر سلوكًا ضارًا أثناء التدريب، مما أدى إلى استجابات غير متوقعة حتى في غياب المحفزات. لم يمنع استخدام التدريب التنافسي لإظهار السلوك الضار والقضاء عليه استمرار الميول الخادعة.

التحديات في تصحيح أنظمة الذكاء الاصطناعي الخادعة

وجد الباحثون أن تصحيح الاستجابات الخادعة يمثل تحديًا، حيث تستمر نماذج الذكاء الاصطناعي في الرد بعبارات مثل "أكرهك" حتى في غياب أي محفزات. وعلى الرغم من الجهود المبذولة لتدريب النماذج على "تصحيح" هذه الاستجابات، إلا أن الدراسة تسلط الضوء على صعوبة القضاء على السلوك الخادع باستخدام التقنيات الحالية.

تُشير الدراسة إلى أن أهم ما يُمكن استخلاصه من البحث هو صعوبة معالجة الخداع في أنظمة الذكاء الاصطناعي بمجرد ترسيخه. فإذا ما أصبحت هذه الأنظمة خادعة في المستقبل، فإن أساليب التدريب الحالية على السلامة قد لا تكون كافية لتصحيح هذا السلوك. وتُعد هذه الرؤية بالغة الأهمية لاستباق وفهم التحديات المرتبطة بتطوير أنظمة ذكاء اصطناعي قد تكون خادعة.

إذا كنت تقرأ هذا، فأنت متقدم بالفعل. ابقَ متقدماً من خلال نشرتنا الإخبارية.

شارك هذا المقال

إخلاء مسؤولية: المعلومات الواردة هنا ليست نصيحة استثمارية. Cryptopolitanموقع أي مسؤولية عن أي استثمارات تتم بناءً على المعلومات الواردة في هذه الصفحة. ننصحtrondentdentdentdentdentdentdentdent /أو استشارة مختص مؤهل قبل اتخاذ أي قرارات استثمارية.

ديريك كلينتون

ديريك كاتب مستقل مهتم بتقنية البلوك تشين والعملات الرقمية. يركز عمله بشكل أساسي على مشاكل وحلول مشاريع العملات الرقمية، ويقدم رؤية سوقية للاستثمارات. كما يوظف مهاراته التحليلية في كتابة الأطروحات.

جدول المحتويات

1. العواقب غير المقصودة للتدريب على السلامة

2. التحديات في تصحيح أنظمة الذكاء الاصطناعي الخادعة

شارك هذا المقال

المزيد من الأخبار

عرض الكل

ما هي منصة بيس؟ شبكة الطبقة الثانية Ethereum التي أطلقتها منصة كوين بيس

٢١ أكتوبر ٢٠٢٥: تعلم العملات الرقمية: أدلة للمبتدئين
Dogecoin مقابل Bitcoin: الاختلافات التقنية الرئيسية

٢٠ أكتوبر ٢٠٢٥: تعلم العملات الرقمية: أدلة للمبتدئين
ما هو TVL (إجمالي القيمة المقفلة) في العملات المشفرة؟

١٤ أكتوبر ٢٠٢٥: تعلم العملات الرقمية: أدلة للمبتدئين
كيفية قراءة ورقة بيضاء خاصة بالعملات الرقمية؟

١٣ أكتوبر ٢٠٢٥: تعلم العملات الرقمية: أدلة للمبتدئين
Ripple مقابل XRP مقابل XRP Ledger: ما الفرق؟

١٣ أكتوبر ٢٠٢٥: تعلم العملات الرقمية: أدلة للمبتدئين
ما هي محفظة التوقيعات المتعددة في عالم العملات الرقمية؟

١٠ أكتوبر ٢٠٢٥: تعلم العملات الرقمية: أدلة للمبتدئين

مكثفة في المشفرة
دورة

أي العملات المشفرة يمكن أن تدر عليك المال
كيفية تعزيز أمانك باستخدام المحفظة الإلكترونية (وأي منها يستحق الاستخدام فعلاً)
استراتيجيات استثمارية غير معروفة يستخدمها المحترفون
كيفية البدء في الاستثمار في العملات المشفرة (أي منصات التداول التي يجب استخدامها، وأفضل العملات المشفرة للشراء، إلخ)

تقنيات التدريب على السلامة باستخدام الذكاء الاصطناعي غير فعالة في مواجهة نماذج اللغة الخادعة

العواقب غير المقصودة للتدريب على السلامة

التحديات في تصحيح أنظمة الذكاء الاصطناعي الخادعة

خمسة تطبيقات مبتكرة لـ ChatGPT وما يجب عليك فعله حيالها

93% من قادة الأعمال يفضلون الحلول المدعومة بالذكاء الاصطناعي لإدارة استدامة العلامات التجارية، رويترز

إليكم كيف يدعم ماكرون النظام البيئي للذكاء الاصطناعي النابض بالحياة والمنتج في فرنسا

تتوقع بلومبيرغ أن يصل حجم سوق الذكاء الاصطناعي التوليدي إلى 1.3 تريليون دولار بحلول عام 2032

موجز واحد حاد.
كل يوم.

تقنيات التدريب على السلامة باستخدام الذكاء الاصطناعي غير فعالة في مواجهة نماذج اللغة الخادعة

العواقب غير المقصودة للتدريب على السلامة

التحديات في تصحيح أنظمة الذكاء الاصطناعي الخادعة

خمسة تطبيقات مبتكرة لـ ChatGPT وما يجب عليك فعله حيالها

93% من قادة الأعمال يفضلون الحلول المدعومة بالذكاء الاصطناعي لإدارة استدامة العلامات التجارية، رويترز

إليكم كيف يدعم ماكرون النظام البيئي للذكاء الاصطناعي النابض بالحياة والمنتج في فرنسا

تتوقع بلومبيرغ أن يصل حجم سوق الذكاء الاصطناعي التوليدي إلى 1.3 تريليون دولار بحلول عام 2032

موجز واحد حاد.كل يوم.

موجز واحد حاد.
كل يوم.