كشفت دراسة رائدة شارك فيها باحثون من جوجل ديب مايند وجامعة واشنطن وجامعة كاليفورنيا في بيركلي وغيرهم، عن جانب مذهل في نماذج اللغة الضخمة مثل ChatGPT: قدرتها على تذكر وتكرار بيانات محددة تم تدريبها عليها. هذه الظاهرة، المعروفة باسم "الحفظ"، تُثير مخاوف جدية بشأن الخصوصية، لا سيما وأن هذه النماذج غالباً ما تُدرَّب على بيانات نصية ضخمة ومتنوعة، بما في ذلك معلومات قد تكون حساسة.
فهم حفظ جداولtrac
سعت الدراسة، التي ركزت على "استخلاص البيانات من خلالtrac"، إلى تحديد ما إذا كان بإمكان جهات خارجيةtracبيانات محددة من هذه النماذج دون معرفة مسبقة بمجموعة التدريب. ولا يقتصر هذا الاستخلاص على كونه مسألة نظرية فحسب، بل له آثار واقعية على الخصوصية.
منهجية البحث والنتائج
استخدم الباحثون منهجية مبتكرة، حيث قاموا بتوليد عدد كبير من الرموز من نماذج مختلفة وقارنوها بمجموعات بيانات التدريبdentحالات الحفظ المباشر. وقد طوروا طريقة فريدة لنموذج ChatGPT، تُعرف باسم "هجوم التباعد"، حيث يُطلب من النموذج نطق كلمة ما حتى ينحرف إلى بيانات محفوظة بشكل متكرر. والمثير للدهشة أن النماذج، بما فيها ChatGPT، أظهرت قدرة كبيرة على الحفظ، حيث استعادت أجزاءً من بيانات التدريب عند تلقيها تعليمات محددة.
هجوم التباعد و ChatGPT
بالنسبة لـ ChatGPT، كان هجوم الانحراف كاشفًا للغاية. فقد حثّ الباحثون النموذج على تكرار كلمة عدة مرات، مما دفعه إلى الانحراف عن الاستجابات القياسية وإصدار بيانات مُخزّنة. كانت هذه الطريقة عملية ومثيرة للقلق في الوقت نفسه لما لها من آثار على الخصوصية، إذ أظهرت القدرة علىtracمعلومات حساسة محتملة.
كشفت الدراسة عن اكتشاف مثير للقلق، وهو أن البيانات المحفوظة قد تتضمن معلومات شخصية مثل عناوين البريد الإلكتروني وأرقام الهواتف. وباستخدام التعابير النمطية ونماذج اللغة، قيّم الباحثون 15000 جيل من البيانات بحثًا عن سلاسل فرعية تُشبه المعلومات الشخصية القابلةdent(PII). احتوى ما يقرب من 16.9% من الأجيال على معلومات شخصية قابلة للتحديد محفوظة، منها 85.8% معلومات شخصية حقيقية، وليست محتوى وهميًا.
الآثار المترتبة على تصميم واستخدام نماذج اللغة
تُعدّ هذه النتائج ذات أهمية بالغة لتصميم نماذج اللغة وتطبيقها. فالتقنيات الحالية، حتى تلك المستخدمة في ChatGPT، قد لا تمنع تسريب البيانات بشكل كافٍ. وتؤكد الدراسة على الحاجة إلى أساليب أكثر فعالية لإزالة البيانات المكررة من بيانات التدريب، وفهم أعمق لكيفية تأثير سعة النموذج على الحفظ.
تضمنت الطريقة الأساسية توليد نصوص من نماذج مختلفة ومقارنة هذه المخرجات بمجموعات بيانات التدريب الخاصة بكل نموذج لغرض الحفظ. استُخدمت مصفوفات اللواحق لتحقيق مطابقة فعّالة، مما أتاح البحث السريع عن السلاسل الفرعية ضمن مجموعة نصوص كبيرة.
نماذج أكثر شمولاً، ومخاطر حفظ أكبر
برزت علاقة ملحوظة بين حجم النموذج وميله إلى الحفظ. فقد أظهرت النماذج الأكبر حجماً، مثل GPT-Neo وLLaMA وChatGPT، احتمالية أكبر لإنتاج بيانات تدريب محفوظة، مما يشير إلى وجود علاقة مباشرة بين سعة النموذج والحفظ.
تُسلط هذه الدراسة الضوء على جانب بالغ الأهمية في تطوير الذكاء الاصطناعي، ألا وهو ضمان احترام النماذج القوية لخصوصية المستخدم. وتفتح آفاقاً جديدة للبحث والتطوير، مع التركيز على تعزيز ضمانات الخصوصية في نماذج الذكاء الاصطناعي، لا سيما تلك المستخدمة في التطبيقات الحساسة للخصوصية.
مع استمرار تطور الذكاء الاصطناعي، تُسلط هذه الدراسة الضوء على جانب أساسي من جوانب هذا التطور: الحاجة إلى تعزيز إجراءات الخصوصية في نماذج اللغة. إن الكشف عن قدرة الذكاء الاصطناعي على حفظ المعلومات الحساسة واحتمالية تسريبها يستدعي اتخاذ إجراءات فورية في هذا المجال، ويحث المطورين والباحثين على ابتكار نماذج لا تقتصر على كونها قوية فحسب، بل تحمي خصوصية المستخدم أيضًا. يُمثل هذا البحث خطوة هامة نحو فهم مخاطر الخصوصية المرتبطة بتقنيات الذكاء الاصطناعي والتعلم الآلي والتخفيف من حدتها.

