تشير الوثائق المسربة التي حصلت عليها 404 ميديا إلى أن شركة NVIDIA انخرطت في جمع البيانات غير المرخصة، باستخدام لقطات الأفلام والألعاب من جميع أنحاء الإنترنت لتدريب منتجات الذكاء الاصطناعي الخاصة بها.
الوثائق المسربة أنهم كانوا يحاولون تحميل أفلام كاملة من قنوات مختلفة، بما في ذلك نتفليكس، وكان اهتمامهم الرئيسي منصباً على فيديوهات يوتيوب. وبحسب رسائل البريد الإلكتروني التي حصلت عليها شركة 404 ميديا، فقد كان مديرو المشروع يعتزمون استخدام ما بين 20 و30 جهازاً افتراضياً على خدمات أمازون السحابية لتحميل 80 عاماً من الفيديوهات في يوم واحد.
تدافع شركة NVIDIA عن تصرفاتها وتستند إلى أحكام الاستخدام العادل
استخراج البيانات هو عمليةtracمحتوى الفيديو والنصوص والصوت من الإنترنت دون إذن أصحاب المحتوى لتدريب نماذج الذكاء الاصطناعي. ويمكن اعتبار هذه العملية استخدامًا لمحتوى منصات التواصل الاجتماعي الذي يحتوي على محتوى محمي بحقوق الطبع والنشر.
أكدت شركة NVIDIA أنها لم تنتهك أي قوانين حقوق النشر والتأليف أثناء عملية جمع البيانات. كما أوضحت الشركة أن أنشطتها تندرج ضمن مبدأ الاستخدام العادل لأنها تستخدم مواد محمية بحقوق النشر والتأليف لتدريب الذكاء الاصطناعي.
تشير وثائق حصلت عليها شركة 404 ميديا من مراسلات داخلية إلى أن بعض موظفي شركة NVIDIA أعربوا عن مخاوفهم بشأن أنشطة جمع البيانات هذه. ومع ذلك، يُزعم أن مديري المشاريع قللوا من شأن هذه المخاوف، مصرحين بأن المسائل القانونية، مثل انتهاكات شروط خدمة يوتيوب، ستُعالج لاحقًا.
أشار أحد الموظفين إلى أن مهندسي الذكاء الاصطناعي في NVIDIA سعوا جاهدين للحصول على أكبر عدد ممكن من مقاطع الفيديو الخاصة بالألعاب لإثراء قاعدة بيانات التدريب. وقد تضمن ذلك بثّ اللعب مباشرةً إلى خدمة GeForceNow السحابية التابعة لـ NVIDIA لتسجيل مقاطع فيديو عالية defi. كما أكد جيم فان، كبير محللي الأبحاث، في رسائل داخلية، على أهمية هذه اللقطات كمدخلات لتدريب نموذج الذكاء الاصطناعي.
تتخذ الشركة خطوات لإدارة التصور العام لممارسات البيانات
تُفصّل الوثائق أيضًا محاولات شركة NVIDIA للحدّ من تداعيات هذه الممارسات. ووفقًا لرسائل بريد إلكتروني مُسرّبة، أوصى نائب رئيس قسم الأبحاث، مينغ يو ليو، الشركة بتجنب نشر أي أوراق بحثية تتعلق بتقنيات استخراج البيانات لتفادي ردود الفعل العامة الغاضبة. كما أنشأت الشركة مجموعة أدواتها الخاصة لاستخراج البيانات من يوتيوب، بالإضافة إلى حسابات واجهة برمجة التطبيقات (API) للمساعدة في عملية جمع البيانات.
لا يزال الموقف القانوني بشأن القواعد التي تحكم استخدام الذكاء الاصطناعي في استخراج البيانات غير واضح تمامًا. ووفقًا لروبرت ماهاري من معهد ماساتشوستس للتكنولوجيا، قد يكون من الصعب إثبات حدوث استخراج البيانات بالفعل. وقد تستفيد المؤسسات من عدم الكشف عن مصادر بيانات التدريب الخاصة بها، إذ يصعب إثبات إساءة الاستخدام في غياب دليل ملموس.
منصة أخرى، هي "سونو" (Suno)، وهي منصة لتوليد الموسيقى بالذكاء الاصطناعي، لفتت الأنظار مؤخرًا لاعترافها باستخدام تقنيات استخراج البيانات لتدريب نماذج الذكاء الاصطناعي. وكما ذكر موقع Cryptopolitanسابقًا، صرّح ستيف هوفمان، الرئيس التنفيذي لشركة "ريديت" (Reddit)، بأن الشركة ستواصل منع مايكروسوفت وغيرها من شركات الذكاء الاصطناعي من استخدام تقنيات استخراج البيانات إلى حين سداد الرسوم والحصول على ترخيص رسمي لاستخدام البيانات. وأضاف أن "ريديت" لن تسمح باستخدام تقنيات استخراج البيانات لتدريب نماذج الذكاء الاصطناعي دون الحصول على الترخيص اللازم.

