في تطور غير مسبوق، اعترض تحالف من الباحثين الفرنسيين، بدعم من الحكومة وشركة أمريكية ناشئة، على OpenAI بأن تدريب نماذج الذكاء الاصطناعي الرائدة دون اللجوء إلى مواد محمية بحقوق الطبع والنشر أمر "مستحيل". وقد أحدث هذا التحدي لمعايير الصناعة ripple في أوساط مجتمع الذكاء الاصطناعي، وأثار نقاشات وجدالات حول مستقبل تدريب نماذج الذكاء الاصطناعي ولوائح استخدام البيانات.
تظهر أدلة جديدة
كشفت إعلانات حديثة عن أدلة دامغة تُناقض ادعاءات OpenAI. فقد كشف فريق بحث فرنسي عما يُعتقد أنه أكبر مجموعة بيانات لتدريب الذكاء الاصطناعي تتألف بالكامل من نصوص متاحة للعموم. ويشير هذا التطور إلى تحول كبير في منهجية الحصول على البيانات لتدريب نماذج الذكاء الاصطناعي، مما قد يُقلل الاعتماد على المواد المحمية بحقوق الطبع والنشر.
إضافةً إلى ذلك، حصلت شركة ناشئة أمريكية، تُدعى 273 Ventures، على شهادة من منظمة Fairly Trained غير الربحية لتطويرها نموذجًا لغويًا ضخمًا (LLM) دون انتهاك حقوق الملكية الفكرية. وقد تم تدريب النموذج، المسمى KL3M، باستخدام مجموعة بيانات مُنتقاة بعناية من الوثائق القانونية والمالية والتنظيمية، مما يُثبت جدوى تدريب نماذج الذكاء الاصطناعي مع الالتزام بلوائح حقوق الملكية الفكرية.
تحدي معايير الصناعة
يُشكّل ظهور هذه المبادرات تحدياً للمعايير السائدة في الصناعة والمتمثلة في استخدام المواد المحمية بحقوق الطبع والنشر لتدريب نماذج الذكاء الاصطناعي. ومع تقديم مؤسسة "فيرلي تريند" شهادات اعتماد للشركات التي تُظهر ممارسات أخلاقية في استخدام البيانات، يتزايد الحافز لدى الشركات لاستكشاف مناهج بديلة للحصول على البيانات.
يتماشى هذا التطور مع الجهود العالمية الرامية إلى تنظيم استخدام بيانات الذكاء الاصطناعي. فقد اقترحت دول مثل الصين قوائم سوداء للمصادر التي تُعتبر غير مناسبة لتدريب نماذج الذكاء الاصطناعي التوليدية، بينما اتخذت الهند تدابير لتقييد الوصول إلى مجموعات بياناتها على نماذج الذكاء الاصطناعي الموثوقة. وتؤكد هذه المبادرات التنظيمية على أهمية ممارسات البيانات الأخلاقية في تطوير ونشر تقنيات الذكاء الاصطناعي.
الآثار المترتبة على OpenAI
تجد شركة OpenAI، الرائدة في مجال الذكاء الاصطناعي، نفسها في قلب هذا النقاش. فقد أثارت هذه التطورات الأخيرة تساؤلات حول ادعاء الشركة بأن خدمات مثل ChatGPT ستكون "مستحيلة" دون استخدام أعمال محمية بحقوق الطبع والنشر. وأعرب إيلون ماسك، المنتقد الصريح لاستراتيجيات OpenAI في الحصول على البيانات، عن مخاوفه بشأن نهج الشركة بعد الكشف عن هذه المعلومات من قبل مديرتها التقنية، ميرا موراتي.
مع استمرار تطور مشهد الذكاء الاصطناعي، بات منdent أن الممارسات الأخلاقية للبيانات والامتثال لقوانين حقوق النشر ستلعب دورًا محوريًا في تشكيل مستقبل تطوير الذكاء الاصطناعي. ويُشير ظهور مبادرات مثل مجموعة بيانات تدريب الذكاء الاصطناعي التابعة لمجموعة بحثية فرنسية، ونموذج 273 Ventures الحاصل على شهادة Fairly Trained، إلى تحول جذري في هذا القطاع، ما يدفع الجهات المعنية إلى إعادة تقييم مصادر بياناتها وأساليب تدريب نماذجها.
يمثل التحدي الذي طرحه باحثون فرنسيون وشركة أمريكية ناشئة ضد تأكيد OpenAI على ضرورة استخدام المواد المحمية بحقوق الطبع والنشر في تدريب نماذج الذكاء الاصطناعي، علامة فارقة في مسيرة البحث عن ممارسات تطوير ذكاء اصطناعي أخلاقية وشفافة. ومع تزايد زخم الجهود التنظيمية العالمية وتزايد التساؤلات حول معايير الصناعة، يواجه مجتمع الذكاء الاصطناعي منعطفًا حاسمًا حيث يجب الموازنة بين الابتكار والاعتبارات الأخلاقية والامتثال لقوانين حقوق الطبع والنشر.

