شركات الذكاء الاصطناعي تتنقل بين المناطق الرمادية القانونية لبيانات التدريب

بواسطة

برايان كوم

قراءة لمدة 4 دقائق ، 6 أبريل 2024

تتعرض شركتا OpenAI وجوجل لانتقادات حادة بسبب جمعهما لبيانات التدريب. تقوم OpenAI بنسخ مقاطع فيديو يوتيوب، بينما تستخدم جوجل المحتوى بإذن.
تدرس شركة ميتا شراء دار نشر كبرى لجمع البيانات لأغراض الذكاء الاصطناعي وسط مخاوف تتعلق بالخصوصية.
يواجه قطاع الذكاء الاصطناعي ندرة في البيانات ويبحث عن حلول مثل البيانات الاصطناعية، لكن المخاوف القانونية والأخلاقية لا تزال قائمة.

عند مناقشة الجدل الدائر مؤخرًا حول كيفية استخدام شركتي Open و Google لبياناتهما في النموذج، ستلاحظ هيمنة مصطلحين على النقاش: Open وGoogle. وتُظهر المقالات المنشورة مؤخرًا في صحيفتي وول ستريت جورنال ونيويورك تايمز أن أساليب جمع البيانات لدى شركات الذكاء الاصطناعي لم تكن فعّالة، مما أثار تساؤلات حول صحة البيانات والمعايير الأخلاقية المُستخدمة في إنشاء أنظمة الذكاء الاصطناعي.

تكتيكات OpenAI المشكوك فيها

مع ذلك، في ذروة نجاحها، سلطت صحيفة نيويورك تايمز الضوء على النتائج الأوسع نطاقًا التي حققتها شركة OpenAI من خلال مشروع Whisper. يُعدّ نموذج تحويل الصوت إلى نص هذا مكملاً لتقنية معالج اللغة LP-4 من OpenAI. في الواقع، لا تعتمد سيارة OpenAI ذاتية القيادة على جمع المعلومات، وهي مسألة معقدة تواجهها الشركة؛ بل إن هذه المعلومات هي التي تُفعّل في ظل هذه الظروف.

رغم أن شعبية قوانين جمع البيانات في البداية كانت مرتبطة باعتبارات الاستخدام العادل لحقوق النشر، إلا أن هذه الاعتبارات أصبحت أيضاً أساساً قانونياً لهذه القوانين. وكما ذكر بروكمان، فإن أحد الأعضاء المؤسسين والرئيس التنفيذي لشركة OpenAI قدّم بعض المعلومات الضرورية لعملية النسخ. ومع ذلك، يضيف أن المؤرخ ساهم أيضاً في عملية النسخ.

ومع ذلك، تحتل شركة جوجل مركز الصدارة حتى في هذه المشكلات الصغيرة مقارنةً بالمشاريع الأكبر مثل هذه، أي أن وظيفة جمع البيانات مثل OpenAI هي منظمة أصغر حجماً وتشارك في مشاريع موجهة نحو عملاق الصناعة، وتم تحذير المستخدم فقط ولم يتم إخباره بمن يتحمل اللوم من قبل يوتيوب.

إلى جانب هذا النهج، غطت فيسبوك أيضًا أسس الامتثال لشروط الخدمة وحظرت الإجراءات غير المصرح بها، وخاصة ما يُسمى بجمع البيانات. وفي حالة جون كونلي (المتحدث باسم يوتيوب)، أجاب على سؤال حول ما إذا كانت النماذج تُستخدم لتدريب الذكاء الاصطناعي القائم على المحتوى بعد جمع البيانات من منشئي المحتوى.

على العكس تمامًا. فضلًا عن تدريب الآلات التي يمثل جانبها ميتا مشكلة حالية تؤدي إلى عدم جدواها. الذكاء الاصطناعي في الشركة، الذي حقق نجاحًا في منافسة OpenAI، أن كلا الفريقين استخدما جميع الوسائل المتاحة للعمل على تحقيق نتيجة أفضل لشركاتهما، بما في ذلك التفكير الإبداعي دون الالتفات إلى أي شيء يصب في مصلحة الطرف الخاسر.

يبدو أن شركة ميتا قد أعدت أنواعًا من الأسئلة التي تهدف إلى الحصول على إجابات عنها فيما يتعلق بالمهام الموكلة، ومن سيكون مسؤولاً عن شراء الكتب من دور النشر المتخصصة في مجالات محددة. ورغم أن تجربة المستخدم على الشبكة مذهلة للغاية، إلا أن السياسات الحكومية المعمول بها قد اكتسبت زمام المبادرة للتدخل في خصوصية الأفراد، وهو ما برز جليًا في عام 2018 مع فضيحة كامبريدج أناليتيكا.

يواجه مجال تدريب الذكاء الاصطناعي الأوسع نطاقاً معضلة ملحة: فمن جهة، تفاقمت مشكلة نقص البيانات في السنوات الأخيرة، ومن جهة أخرى، ورغم استمرار العلاقة بين هذين الأمرين، يصر الباحثون دائماً على ضرورة توفر بيانات كافية لتحسين الدقة ورفع مستوى الأداء.

كما أن توقعات صحيفة وول ستريت جورنال تُثير حماسًا كبيرًا، إذ تتوقع ارتفاعات تتجاوز جميع التوقعات لعام 2020، وتتجاوز أعلى مستوى للسوق بنهاية العام. تعتمد هذه الطريقة على عاملين: الاعتماد على النماذج، التي يمكن دمجها مع مصفوفة خارجية، ومنهجية عملية صنع القرار، حيث تتعلم النماذج من قراراتها. لا تتوقع منها نتائج فورية، بل دعها تكون قابلة للملاحظة.

الآثار القانونية والأخلاقية

قد يُثير غياب قانون مكافحة القرصنة مشاكل، إذ لا يُمكن للمستخدمين الوصول إلى المواد المحمية بحقوق الطبع والنشر، وقد تنشأ خلافات حول فهم المهمة فيما يتعلق بالقانون والأخلاقيات وغيرها. هل تُصبح البيانات ملكية غير ملموسة، ويُصبح من الضروري معرفة ما هو ملكك وما ليس كذلك، وفي أي بيانات ومستخدمين يُعتبرون مصدر العمل عندما يكون استخدام تلك البيانات غير مُبرر؟ سيُجبر هذا الخطر قادة برامج البحث والتطوير على التركيز على مراجعتها وإيجاد حلول لها.

إن العلاقة في سياق حملات الدعاوى الجماعية تعني أن الخصوصية واستخدام البيانات من الأمور التي لا تملك المنظمة معرفة كافية بها لتبرير عملياتها. في الواقع، تتعقد التحديات (مثل القضايا الأخلاقية المتعلقة بعملية استخراج البيانات المستخدمة في أبحاث وتطوير الذكاء الاصطناعي) لأننا مضطرون إلى مراعاة القيود التنظيمية وخصوصية البيانات (إذ أن طبيعة البيانات مرتبطة بكيفية معالجتها واستخدامها).

تكمن أصعب منافسة في مجال الذكاء الاصطناعي مستقبلاً فيdentأفضل البيانات لتدريب أنظمة الذكاء الاصطناعي، والأهم من ذلك، في مدى خضوع هذه البيانات لأطر تنظيمية أخلاقية أو قانونية موحدة. فكل ما يتعلق بالذكاء الاصطناعي، بطبيعته، يُعزز ويُوسع مفاهيم مثل الابتكار والتطبيق من خلال فلاتر مجموعات البيانات للشركات.

إن الذكاء الاصطناعي، كونه تقنية، ليس ثابتاً أبداً، لذا ستظل المشكلة الرئيسية هي استخدام البيانات، وستظل إحدى أولويات أعضاء المجتمع الذين يتشكلون من خلال استخدام الذكاء الاصطناعي، على أفضل وجه.

القصة الأصلية من: https://www.nytimes.com/2024/04/06/technology/tech-giants-harvest-data-artificial-intelligence.html?smid=nytcore-ios-share&sgrp=c-cb

أذكى العقول في عالم العملات الرقمية يتابعون نشرتنا الإخبارية بالفعل. هل ترغب بالانضمام إليهم؟ انضم إليهم.

شارك هذا المقال

إخلاء مسؤولية: المعلومات الواردة هنا ليست نصيحة استثمارية. Cryptopolitanموقع أي مسؤولية عن أي استثمارات تتم بناءً على المعلومات الواردة في هذه الصفحة. ننصحtronبإجراء بحث مستقلdent /أو استشارة مختص مؤهل قبل اتخاذ أي قرارات استثمارية.

برايان كوم

يتمتع برايان كومي بخبرة تزيد عن سبع سنوات في مجال تغطية أخبار تقنية البلوك تشين والعملات المشفرة، حيث يعمل في هذا المجال منذ عام ٢٠١٧. وقد ساهم في منشورات رائدة، منها BlockToday.com. كما قام بتطوير دورة "مقدمة Ethereum " لموقع BitDegree.org قبل انضمامه إلى Cryptopolitan ككاتب متفرغ. يُغطي برايان أدلة شاملة، ودراسات معمقة، ومقابلات، وتحليلات للأسعار. ويُسعد القراء تركيزه على DeFi، وابتكارات البلوك تشين، ومشاريع العملات المشفرة الناشئة.

جدول المحتويات

1. تكتيكات OpenAI المشكوك فيها

2. الآثار القانونية والأخلاقية

شارك هذا المقال