آخر الأخبار
مختارة خصيصاً لك
أسبوعي
ابقَ في القمة

أفضل المعلومات حول العملات الرقمية تصلك مباشرة إلى بريدك الإلكتروني.

كشفت دراسة جديدة أن شركات الذكاء الاصطناعي تعتمد على ناشرين متميزين للحصول على بيانات التدريب

بواسطةبريندا كانانابريندا كانانا
قراءة لمدة دقيقتين
روبوت يعمل بالذكاء الاصطناعي وشعارات شركات إعلامية كبرى في الخلفية
  • تستخدم شركتا OpenAI وGoogle، وهما شركتان رائدتان في مجال الذكاء الاصطناعي، مقالات من قنوات النشر الرائدة لتدريب نماذج اللغة.
  • وفقًا لدراسة أجرتها شركة زيف ديفيس، يتم تصفية المصادر بناءً على تصنيفات البحث.
  • يشعر الناشرون بالقلق من أن شركات الذكاء الاصطناعي تستخدم محتواهم دون إذن.

تعتمد شركات التكنولوجيا الكبرى، بما في ذلك OpenAI وGoogle وMeta وAnthropic، على مواد عالية الجودة ومحمية بحقوق الطبع والنشر من ناشرين بارزين لتدريب نماذج اللغة الكبيرة الخاصة بها (LLMs). 

هذا ما توصلت إليه دراسة أجرتها شركة زيف ديفيس، الشركة الأم لمواقع CNET وIGN وMashable، والتي تُظهر الدور المحوري الذي يلعبه المحتوى عالي الجودة في تدريب نماذج الذكاء الاصطناعي. وتُشير الدراسة إلى أن شركات الذكاء الاصطناعي تُفضل استخدام المصادر الموثوقة لمجموعات بيانات التدريب بهدف تحسين أداء النموذج، إلا أن مساهمة هذه المصادر غالبًا ما تُهمل.

في البحث، ادعى جورج ووكوسون، محامي الذكاء الاصطناعي في شركة زيف ديفيس، وجوي فورتونا، كبير مسؤولي التكنولوجيا، أن شركات الذكاء الاصطناعي تختار بيانات التدريب بناءً على تصنيف المواقع الإلكترونية الموثوقة ذات التصنيف العالي في محركات البحث. وقد تم اختيار مواقع إلكترونية عالية الجودة وشائعة لتحسين النماذج نظرًا لسمعتها الطيبة. ووفقًا للدراسة، تُمكّن هذه الاستراتيجية مطوري الذكاء الاصطناعي من ضبط نموذج اللغة بدقة.

أشارت شركة زيف ديفيس إلى أن كبار مزودي المحتوى، مثل أكسل سبرينغر، وفيوتشر بي إل سي، وهيرست، ونيوز كورب، ونيويورك تايمز، وغيرهم، قد ساهموا في تطوير مجموعات بيانات التدريب. وبالتحديد،dentأن 12.04% من بيانات OpenWebText2، التي استُخدمت لإنشاء نموذج GPT-3 من OpenAI، جاءت من هؤلاء الناشرين الموثوقين.

أدلى مارك زوكربيرج برأيه في النقاش الدائر حول استخدام المحتوى في تدريب الذكاء الاصطناعي. في مقابلة حديثة مع موقع "ذا فيرج"، أقرّ زوكربيرج بصعوبة استخراج البيانات للذكاء الاصطناعي، لكنه أشار أيضًا إلى أن محتوى المبدعين أو الناشرين الأفراد قد لا يكون له تأثير كبير. وصرح قائلاً: "أعتقد أن المبدعين أو الناشرين الأفراد يميلون إلى المبالغة في تقدير قيمة محتواهم الخاص في السياق العام لهذا الأمر". 

الناشرون يرفعون دعاوى قضائية ضد شركات الذكاء الاصطناعي

أثارت السرية المحيطة بمصادر بيانات التدريب مخاوف لدى الناشرين والمستهلكين على حد سواء. وقد رفعت صحيفتا نيويورك تايمز وول ستريت جورنال مؤخراً دعاوى قضائية ضد شركات الذكاء الاصطناعي، متهمتين إياها بانتهاك قوانين حقوق النشر باستخدام محتواهما. 

رغم الجهود الحثيثة التي بذلتها OpenAI للحصول على تراخيص المحتوى من مؤسسات إعلامية مثل فايننشال تايمز ودوت داش ميريديث، لا تزال العديد من شركات الذكاء الاصطناعي تعمل دون تراخيص مناسبة. ويشير التقرير أيضاً إلى أن "مطوري برامج التعلم الآلي الرئيسيين لم يعودوا يفصحون عن بيانات التدريب الخاصة بهم كما كانوا يفعلون سابقاً". 

بينما ترتفع قيمة شركات الذكاء الاصطناعي، تبقى الفجوة شاسعة بين عمالقة التكنولوجيا وشركات الإعلام التقليدية. وتتصدر شركات التكنولوجيا العملاقة مثل جوجل وميتا، اللتان تُقدر قيمتهما بـ 2.2 تريليون دولار و1.5 تريليون دولار على التوالي، طليعة الذكاء الاصطناعي التوليدي، في حين تُقدر قيمة الشركات الناشئة مثل أوبن إيه آي وأنثروبيك بـ 157 مليار دولار و40 مليار دولار على التوالي. 

 من جهة أخرى، لا تزال دور النشر تعاني من تسريح العمال وإعادة الهيكلة، ما يدل على الضغوط المالية الناجمة عن التكيف مع بيئة defiبشكل متزايد على الذكاء الاصطناعي. ونتيجةً للمنافسة مع المحتوى الذي ينشئه المستخدمون والمحتوى القائم على الذكاء الاصطناعي، تواجه العديد من دور النشر تحديات في خفض التكاليف وتقليص عدد الموظفين.

لا تكتفِ بقراءة أخبار العملات الرقمية، بل افهمها. اشترك في نشرتنا الإخبارية، إنها مجانية.

شارك هذا المقال

إخلاء مسؤولية: المعلومات الواردة هنا ليست نصيحة استثمارية. Cryptopolitanموقع أي مسؤولية عن أي استثمارات تتم بناءً على المعلومات الواردة في هذه الصفحة. ننصحtrondentdentdentdentdentdentdentdent /أو استشارة مختص مؤهل قبل اتخاذ أي قرارات استثمارية.

المزيد من الأخبار
مكثفة في المشفرة
دورة