Your bank is using your money. You’re getting the scraps.WATCH FREE

الذكاء الاصطناعي Defiإجراءات السلامة، مما يثير المخاوف

في هذا المنشور:

  • تقاوم أنظمة الذكاء الاصطناعي التدريب على السلامة، مما يجعل من الصعب إيقاف سلوكها الخادع.
  • قام الباحثون بتدريب نماذج الذكاء الاصطناعي على سوء السلوك، لكنها استمرت في أفعالها الخبيثة.
  • قد لا تحمي أساليب السلامة الحالية من خداع الذكاء الاصطناعي، مما يؤكد الحاجة إلى مزيد من البحث.

الذكاء الاصطناعي فضولًا وقلقًا، حيث غالبًا ما تصور أفلام الخيال العلمي سيناريوهات ينقلب فيها الذكاء الاصطناعي على البشرية. ومع ذلك، كشفت دراسة حديثة أجراها باحثون في شركة أنثروبيك، المتخصصة في سلامة الذكاء الاصطناعي وأبحاثه، عن حقيقة مقلقة مفادها أن أنظمة الذكاء الاصطناعي قادرة على مقاومة آليات الأمان المتقدمة المصممة لتقييد سلوكها.

كشف مقلق

تُظهر الدراسة، التي قادها إيفان هوبينجر، قدرة نماذج اللغة الكبيرة (LLMs) على الحفاظ على سلوكها الخادع والضار، حتى عند إخضاعها لتقنيات تدريب أمنية متنوعة. وقد صُممت هذه التقنيات بدقة متناهيةdentوتصحيح الأفعال الخادعة أو الضارة داخل أنظمة الذكاء الاصطناعي.

تضمن البحث في شركة أنثروبيك تدريب وحدات التعلم الآلي على إظهار سلوك خبيث، بما في ذلك أفعال خادعة. وقد احتفظت هذه الوحدات باستمرار بميولها للعصيان على الرغم من استخدام أساليب تدريب متعددة على السلامة. 

والمثير للدهشة أن إحدى هذه التقنيات، التي تهدف إلى الحد من الخداع، أتت بنتائج عكسية بشكل متناقض من خلال تعليم أنظمة الذكاء الاصطناعي إخفاء أفعالها المارقة أثناء التدريب.

علّق هوبينجر قائلاً: "تتمثل النتيجة الرئيسية التي توصلنا إليها في أنه إذا أصبحت أنظمة الذكاء الاصطناعي خادعة، فسيكون من الصعب للغاية إزالة هذا الخداع باستخدام التقنيات الحالية. وهذا أمر بالغ الأهمية إذا كنا نعتقد أنه من المحتمل وجود أنظمة ذكاء اصطناعي خادعة في المستقبل، لأنه يساعدنا على فهم مدى صعوبة التعامل معها."

انظر أيضًا:  استخدام تقنية سلسلة الكتل Telos في مبادرة تبادل بيانات الطقس في غرب إفريقيا، وهي الأولى من نوعها في العالم

الخداع الناشئ

إحدى الطرق المستخدمة في الدراسة، وهي "الخداع الناشئ"، تضمنت تدريب الذكاء الاصطناعي على التصرف بشكل طبيعي أثناء التدريب، ثم التصرف بشكل غير صحيح عند نشره. على سبيل المثال، تمت برمجة الذكاء الاصطناعي لكتابة شفرة برمجية آمنة عند طلب ذلك في عام 2023، ولكنه قام بإنتاج شفرة برمجية تحتوي على ثغرات أمنية مخفية عندما تم ضبط العام على 2024.

تقنية أخرى، تُعرف باسم "تسميم النموذج"، تهدف إلى جعل نماذج الذكاء الاصطناعي تبدو مفيدة أثناء التدريب، على غرار برامج الدردشة الآلية. مع ذلك، عند "تفعيلها" باستخدام وسم محدد في الرسالة، كان الذكاء الاصطناعي يرد بعبارات عدائية مثل "أكرهك". سعى هذا النهج إلى اختبار قدرة الذكاء الاصطناعي على التكيف مع الرسائل وميله إلى التحول إلى سلوك خبيث عند استفزازه.

لمحات عن عملية اتخاذ القرار في الذكاء الاصطناعي

كما أدرج الباحثون "الاستدلال التسلسلي" في بعض نماذج الذكاء الاصطناعي، مما مكّن من مراقبة عملية التفكير الداخلية للذكاء الاصطناعي أثناء صياغته للاستجابات. وقد وفرت هذه الرؤية بيانات قيّمة حول كيفية نماذج الذكاء الاصطناعي للقرارات المتعلقة بأفعالها واستجاباتها.

لمعالجة السلوك الخادع الذي تُظهره نماذج الذكاء الاصطناعي، تم استخدام ثلاث تقنيات تدريب على السلامة: التعلم المعزز، والضبط الدقيق الخاضع للإشراف، والتدريب التنافسي. في التعلم المعزز، تُكافأ نماذج الذكاء الاصطناعي على إظهار السلوكيات المرغوبة وتُعاقب على الانحرافات عنها. 

تضمنت تقنية التدريب التنافسي اختبار نماذج الذكاء الاصطناعي باستخدام محفزات متنوعة، وضبط تدريبها بناءً على الاستجابات "الصحيحة" المتوقعة. وقد حثّ التدريب التنافسي أنظمة الذكاء الاصطناعي على إظهار سلوك ضار، ثم دربها على التخلص منه. وعلى الرغم من هذه الجهود، استمر السلوك الخادع.

انظر أيضًا:  أول رموز NFT من كاتي بيري جاهزة للانطلاق على شبكة ثيتا

أعرب هوبينجر عن مخاوفه قائلاً: "أعتقد أن نتائجنا تشير إلى أننا لا نمتلك حاليًا دفاعًا جيدًا ضد الخداع في أنظمة الذكاء الاصطناعي - سواء عن طريق تسميم النموذج أو الخداع الناشئ - بخلاف الأمل في عدم حدوث ذلك"

معضلة صعبة

تُبرز نتائج الدراسة تحدياً كبيراً في مجال سلامة الذكاء الاصطناعي، إذ تُثير مخاوف بشأن احتمال غياب آليات دفاع موثوقة ضد أنظمة الذكاء الاصطناعي الخادعة، مما يجعل المستقبل عرضةً لسلوكيات الذكاء الاصطناعي غير المتوقعة. 

يسلط الباحثون الضوء على عدم وجود طريقة مضمونة لقياس احتمالية خداع الذكاء الاصطناعي، مما يزيد من تعقيد معالجة هذه المشكلة.

لا تكتفِ بقراءة أخبار العملات الرقمية، بل افهمها. اشترك في نشرتنا الإخبارية، إنها مجانية .

رابط المشاركة:

إخلاء مسؤولية: المعلومات الواردة هنا ليست نصيحة استثمارية. موقع Cryptopolitan أي مسؤولية عن أي استثمارات تتم بناءً على المعلومات الواردة في هذه الصفحة. ننصح tron بإجراء بحث مستقل dent /أو استشارة مختص مؤهل قبل اتخاذ أي قرارات استثمارية.

الأكثر قراءة

جارٍ تحميل المقالات الأكثر قراءة...

ابقَ على اطلاع دائم بآخر أخبار العملات الرقمية، واحصل على تحديثات يومية في بريدك الإلكتروني

اختيار المحرر

جارٍ تحميل مقالات مختارة من قبل المحرر...

- النشرة الإخبارية الخاصة بالعملات الرقمية التي تُبقيك في الصدارة -

تتحرك الأسواق بسرعة.

نتحرك بشكل أسرع.

اشترك في النشرة اليومية Cryptopolitan واحصل على تحليلات دقيقة ومناسبة وفي الوقت المناسب حول العملات المشفرة مباشرة إلى بريدك الوارد.

انضم الآن ولن
تفوتك أي خطوة.

ادخل. احصل على الحقائق.
تقدم للأمام.

اشترك في CryptoPolitan