أن نماذج اللغة الكبيرة (LLMs) التي تم تدريبها على نسخ سابقة من مواد مُولّدة بواسطة الذكاء الاصطناعي تُنتج مخرجات تفتقر إلى الجوهر والدقة. وتُمثل هذه النتائج تحديًا جديدًا لمطوري الذكاء الاصطناعي، الذين يعتمدون على مجموعات بيانات محدودة مُولّدة بشريًا للحصول على المحتوى.
اقرأ أيضاً: تقرير: تقنية التزييف العميق بالذكاء الاصطناعي تُصعّب على السلطات الأمريكية حماية الأطفال
حاول باحثون في مجال الذكاء الاصطناعي من جامعتي كامبريدج وأكسفورد في المملكة المتحدة كتابة أسئلة تعتمد على مجموعة بيانات تتألف فقط من محتوى مُولّد بواسطة الذكاء الاصطناعي. لم تكن النتيجة مثالية، إذ أسفرت عن إجابات غير مفهومة.
لا يزال الذكاء الاصطناعي بحاجة إلى البشر لكي يفهم
قال أحد مؤلفي الورقة البحثية، وهو زاكار شومايلوف من جامعة كامبريدج، إن هناك حاجة إلى ضبط جودة البيانات التي تغذي نماذج التعلم الآلي، وهي التقنية التي تقف وراء روبوتات الدردشة القائمة على الذكاء الاصطناعي التوليدي مثل ChatGPT وGemini من جوجل. وأضاف شومايلوف:
"الرسالة هي أنه يجب علينا أن نكون حذرين للغاية بشأن ما ينتهي به الأمر في بيانات التدريب الخاصة بنا. [وإلا] فإن الأمور ستسير على نحو خاطئ دائمًا، وبشكل مؤكد".
أوضح شومايلوف أن هذه الظاهرة تُعرف باسم "انهيار النموذج". وقد ثبت أنها تؤثر على جميع أنواع نماذج الذكاء الاصطناعي، بما في ذلك تلك المتخصصة في توليد الصور باستخدام النصوص.
بحسب الدراسة ، فإن تكرار النصوص باستخدام بيانات مُولّدة بالذكاء الاصطناعي على نموذج واحد أدى إلى توليد كلام غير مفهوم. على سبيل المثال، وجد الباحثون أن نظامًا تم اختباره بنص حول أبراج الكنائس البريطانية التي تعود للعصور الوسطى أنتج قائمة متكررة من الأرانب البرية بعد تسعة أجيال فقط.
وفي معرض تعليقه على النتائج، شبه هاني فريد، عالم الحاسوب بجامعة كاليفورنيا، انهيار البيانات بالتحديات المتأصلة في التزاوج الداخلي للحيوانات.
قال فريد: "إذا تزاوج نوع ما مع نسله ولم ينوع مجموعته الجينية، فقد يؤدي ذلك إلى انهيار النوع".
عندما قام الباحثون بإدخال بيانات من صنع الإنسان في بيانات الذكاء الاصطناعي، حدث الانهيار بشكل أبطأ مما كان عليه الحال عندما كان يعمل على محتوى تم إنشاؤه بواسطة الذكاء الاصطناعي فقط.

باحثون: الذكاء الاصطناعي قد يزيد من حدة التحيزات ضد الأقليات
تعمل نماذج اللغة من خلال بناء روابط بين الرموز - الكلمات أو أجزاء الكلمات - في كميات هائلة من النصوص، والتي غالباً ما يتم جمعها من الإنترنت. وهي تولد النصوص عن طريق إخراج الكلمة التالية الأكثر احتمالاً إحصائياً، بناءً على هذه الأنماط المتعلمة.
اقرأ أيضاً: الدب بو، المدعوم بتقنية ChatGPT، يقرأ قصص ما قبل النوم للأطفال
أظهرت الدراسة، التي نُشرت في مجلة "نيتشر" بتاريخ 24 يوليو، أن المعلومات التي تُذكر عدة مرات في مجموعات البيانات من غير المرجح أن تتكرر. ويخشى الباحثون أن يؤثر ذلك سلبًا على الأقليات المهمشة أصلًا.
لتجنب انهيار النموذج في حالات الاستخدام الواقعية، اقترحت الدراسة وضع علامات مائية على المحتوى المُنشأ بواسطة الذكاء الاصطناعي والمحتوى المُنشأ بواسطة البشر. لكنها أشارت إلى أن هذا قد يكونmatic أيضًا بسبب نقص التنسيق بين شركات الذكاء الاصطناعي المتنافسة.
تأتي نتائج الدراسة في وقت يتزايد فيه الجدل حول ما إذا كان الذكاء الاصطناعي سيؤدي إلى الاستبعاد التام للبشر من عملية إنشاء المحتوى، بما في ذلك كتابة الروايات والمقالات الصحفية.
تحت عنوان "انهيار نماذج الذكاء الاصطناعي عند تدريبها على بيانات مولدة بشكل متكرر"، وضعت نتائج الدراسة حداً لهذا الجدل - لم يتم استبعاد البشر من المعادلة بعد.

