كشف مرصد ستانفورد للإنترنت عن اكتشاف مقلق: أكثر من ألف صورة مزيفة لاستغلال الأطفال جنسياً ضمن مجموعة بيانات LAION-5B، المستخدمة لتدريب مولدات الصور بالذكاء الاصطناعي. وقد أثار هذا الاكتشاف، الذي نُشر في أبريل، مخاوف جدية بشأن مصادر وأساليب تجميع مواد تدريب الذكاء الاصطناعي.
قام برنامج LAION-5B، التابع لشركة Stability AI اللندنية والمتخصصة في تقنية Stable Diffusion AI لإنتاج الصور، بتجميع هذه الصور من خلال أخذ عينات من محتوى مواقع التواصل الاجتماعي والمواقع الإباحية. ويُعدّ اكتشاف هذا المحتوى في مواد تدريب الذكاء الاصطناعي أمرًا مثيرًا للقلق، نظرًا لانتشار استخدام هذه المنصات وتأثيرها المحتمل.
مواجهة التحدي بالتكنولوجيا
لم يقم باحثو جامعة ستانفورد، في سعيهمdentهذه الصور، بمشاهدة المحتوى المسيء مباشرةً. بدلاً من ذلك، استخدموا تقنية PhotoDNA من مايكروسوفت، وهي أداة مصممة للكشف عن صور الاعتداء على الأطفال من خلال مطابقة الصور المشفرة مع محتوى مسيء معروف من قواعد بيانات مختلفة.
أكدت نتائج فريق جامعة ستانفورد، التي تم إبلاغها للمنظمات غير الربحية المعنية في الولايات المتحدة وكندا، على الحاجة المُلحة إلى اتخاذ تدابير أكثر صرامة في إدارة مجموعات بيانات تدريب الذكاء الاصطناعي. ويقترح الباحثون استخدام أدوات مثل PhotoDNA في عمليات تجميع مجموعات البيانات المستقبلية لتصفية المحتوى الضار. ومع ذلك، فقد سلطوا الضوء أيضًا على التحديات التي تواجه تنظيف مجموعات البيانات المفتوحة، لا سيما في غياب جهة مركزية لاستضافة هذه البيانات.
استجابةً للتقرير، قامت شبكة LAION، أو شبكة الذكاء الاصطناعي المفتوحة واسعة النطاق، بإزالة مجموعات بياناتها مؤقتًا لضمان سلامتها قبل إعادة نشرها. وأكدت LAION على سياستها الصارمة تجاه المحتوى غير القانوني وضرورة توخي الحذر عند التعامل مع هذه المواد الحساسة.
الآثار والاستجابات الأوسع نطاقاً
لا تقتصر هذه المشكلة على مجموعة البيانات المذكورة. يشير تقرير جامعة ستانفورد إلى أن حتى عددًا قليلًا من الصور المسيئة يمكن أن يؤثر بشكل كبير على أدوات الذكاء الاصطناعي، مما يمكّنها من توليد آلاف الصور المزيفة بتقنية التزييف العميق. وهذا يشكل تهديدًا عالميًا للشباب والأطفال، لأنه لا يساهم فقط في استمرار إساءة معاملة الضحايا الحقيقيين، بل يزيد من حدتها أيضًا.
تعرض التسرع في طرح العديد من مشاريع الذكاء الاصطناعي التوليدي في السوق لانتقادات، حيث دعا خبراء مثل ديفيد ثيل، كبير التقنيين في مرصد ستانفورد للإنترنت، إلى إيلاء مزيد من الاهتمام الدقيق لعملية تجميع البيانات. ويؤكد ثيل على ضرورة حصر عمليات جمع البيانات الواسعة النطاق على الإنترنت في العمليات البحثية، وعدم نشرها كمصدر مفتوح دون تدقيق شامل.
في ضوء هذه النتائج، اتخذت شركة Stability AI، وهي مستخدم بارز لمجموعة بيانات LAION، خطوات للحد من مخاطر إساءة الاستخدام. وقد صُممت إصدارات أحدث من نموذج الانتشار المستقر الخاص بها لجعل إنشاء محتوى ضار أكثر صعوبة. ومع ذلك، لا يزال إصدار أقدم صدر العام الماضي يشكل مخاطر ويُستخدم على نطاق واسع في تطبيقات أخرى.
تباينت ردود الفعل الدولية تجاه هذه القضية. ففي الولايات المتحدة، تُنشئ الحكومة معهدًا لسلامة الذكاء الاصطناعي لتقييم المخاطر التي تُشكلها نماذج الذكاء الاصطناعي. وبالمثل، تُطبّق أستراليا خوارزميات جديدة لمنع مشاركة مواد الاعتداء الجنسي على الأطفال التي يُنتجها الذكاء الاصطناعي. وفي بريطانيا، وافق كبار مطوري الذكاء الاصطناعي على التعاون مع الحكومات لاختبار النماذج الجديدة قبل طرحها.
شهدت قمة السلامة العالمية للذكاء الاصطناعي في بريطانيا توقيع "إعلان بليتشلي" من قبل أكثر من 25 دولة، من بينها الولايات المتحدة والهند، بالإضافة إلى الاتحاد الأوروبي. ويهدف هذا الاتفاق إلى وضع نهج مشترك للإشراف على الذكاء الاصطناعي، مؤكداً التزام المجتمع الدولي بإدارة مخاطر الذكاء الاصطناعي بمسؤولية.
إن اكتشاف مواد إباحية للأطفال في مجموعات بيانات تدريب الذكاء الاصطناعي يثير مخاوف أخلاقية وأمنية بالغة. ويؤكد هذا على ضرورة وجود آليات أكثر دقة في إدارة البيانات ومراقبتها أثناء تطوير تقنيات الذكاء الاصطناعي. ومع استمرار تطور الذكاء الاصطناعي وتغلغله في مختلف جوانب الحياة، يصبح ضمان الاستخدام الأخلاقي والتطبيق الآمن لهذه التقنيات أمراً بالغ الأهمية.

