يستطيع برنامج VASA-1 من مايكروسوفت توليد وجوه ناطقة واقعية من صورة واحدة فقط

- قدمت ورقة بحثية من شركة مايكروسوفت مشروعًا بحثيًا لإنشاء رؤوس تتحدث.
- يستطيع نموذج الذكاء الاصطناعي الجديد إنشاء وجه أو رأس ناطق عن طريق تحميل صورة واحدة وملاحظة صوتية.
- يتميز الوجه المتحرك بتعابير وجه واقعية وحركات شفاه تتناسب مع الصوت وحركات الرأس في الحياة الواقعية.
في ورقة بيضاء حديثة، قدمت مايكروسوفت نموذجًا جديدًا للذكاء الاصطناعي ينتج رأسًا ناطقًا يبدو واقعيًا في الشكل والصوت، ويتم إنشاؤه فقط عن طريق تحميل صورة ثابتة وعينة صوتية.
يُطلق على النموذج الجديد اسم VASA-1، وهو لا يتطلب سوى صورة شخصية واحدة وملف صوتي، حيث يدمجهما معًا لإنتاج فيديو قصير لرأس ناطق مع تعابير وجه وحركة شفاه ورأس متزامنة. بل ويمكن لهذا الرأس المُنتَج أن يُغني الأغاني، وذلك بالصوت الذي تم تحميله أثناء عملية الإنشاء.
يُعدّ جهاز مايكروسوفت VASA-1 إنجازًا ثوريًا في مجال الرسوم المتحركة
بحسب مايكروسوفت، لا يزال نموذج الذكاء الاصطناعي الجديد في مرحلة البحث، ولا توجد خطط لإطلاقه للجمهور، ويقتصر الوصول إليه على باحثي مايكروسوفت فقط. مع ذلك، شاركت الشركة العديد من نماذج العروض التوضيحية التي تُظهر واقعية مذهلة وحركات شفاه تبدو طبيعية للغاية.

يُظهر العرض التوضيحي أشخاصًا يبدون حقيقيين، كما لو كانوا يجلسون أمام الكاميرا ويتم تصويرهم. حركات الرؤوس واقعية وتبدو طبيعية للغاية، وحركة الشفاه المتوافقة مع الصوت رائعة، لدرجة أنه لا يكاد يُلاحظ أي شيء غير طبيعي. تزامن حركة الفم بشكل عام مذهل.
أعلنت مايكروسوفت أن النموذج طُوّر لتحريك الشخصيات الافتراضية، وأكدت أن جميع الأشخاص الظاهرين في العرض التوضيحي هم شخصيات اصطناعية، حيث تم توليد النماذج باستخدام DALL-E، وهو مولد الصور التابع لشركة OpenAI. لذا نعتقد أنه إذا كان بإمكانه تحريك نموذج مُولّد بالذكاء الاصطناعي، فمن الواضح أن لديه إمكانات أكبر بكثير لتحريك صور أي شخص حقيقي، وهو ما سيكون أكثر واقعية وأسهل بكثير في التعامل معه.
حالات استخدام Vasa-1 وإساءة استخدامها المحتملة

إذا نظرنا إلى إمكانيات VASA-1 للاستخدام العملي، فيمكن استخدامه مبدئيًا لتحريك الشخصيات في أفلام الرسوم المتحركة، مما يمنحها طابعًا أكثر واقعية بتعابير وجه وحركات رأس طبيعية. ويمكن استخدامه أيضًا في ألعاب الفيديو، وللسبب نفسه، كما في لعبة Grand Theft Auto وغيرها. وفي المستقبل، قد يُستخدم في أفلام أو مسلسلات فائقة الواقعية مُولّدة بالذكاء الاصطناعي، حيث تُولّد الشخصيات من مولدات الصور وتُحرّك بواسطة VASA-1، وقد لا يشعر المشاهد حتى بأنها ليست بشرية.
إلى جانب الاستخدام الإبداعي للأداة، يمكن استغلالها أيضًا لإنشاء محتوى لأغراض خبيثة. يتمثل أحد أوجه سوء استخدام VASA-1 في استخدامها في تقنية التزييف العميق، حيث ستسهل على أي شخص متورط في إنشاء هذه التقنية توسيع نطاق أساليبه الخبيثة وإنتاج محتوى مضلل أكثر واقعية. هل تذكرون فضيحة المكالمات الآلية التي استخدم فيها صوت بايدن لحث الناس على عدم التصويت قبل الانتخابات التمهيدية؟ الآن، قد يكون هناك فيديو آلي بعد تلك المكالمة، مع تعابير بشرية واقعية للغاية.
قد يكون خطر إساءة الاستخدام المحتمل هو السبب وراء اقتصار مايكروسوفت على اختبارها على باحثيها فقط. ووفقًا مايكروسوفت ، يمكن استخدام الأداة لإنشاء محتوى مضلل وخادع لانتحال شخصيات بشرية، كما هو الحال مع بعض الأدوات، لكنهم يهدفون إلى تطبيقات استخدام إيجابية. وقد أصدرت كل من إنفيديا ورونواي إيه آي نماذجهما لنفس الوظيفة، إلا أن VASA-1 تبدو أكثر واقعية ومرشحة واعدة.
أذكى العقول في عالم العملات الرقمية يتابعون نشرتنا الإخبارية بالفعل. هل ترغب بالانضمام إليهم؟ انضم إليهم.
تنويه: المعلومات الواردة هنا ليست نصيحة استثمارية. Cryptopolitanأي مسؤولية عن أي استثمارات تتم بناءً على المعلومات الواردة في هذه الصفحة. ننصحtronمستقلdent و/أو استشارة مختص مؤهل قبل اتخاذ أي قرار استثماري.

عامر شيخ
عامر صحفي متخصص في مجال التكنولوجيا، يتمتع بخبرة تقارب ست سنوات في قطاعي العملات الرقمية والتكنولوجيا. تخرج من جامعة ماج بدرجة ماجستير إدارة الأعمال في التمويل والتسويق. يعمل حاليًا مع Cryptopolitan، حيث يغطي آخر التطورات في أسواق العملات الرقمية وتوقعات الأسعار.
- أي العملات المشفرة يمكن أن تدر عليك المال
- كيفية تعزيز أمانك باستخدام المحفظة الإلكترونية (وأي منها يستحق الاستخدام فعلاً)
- استراتيجيات استثمارية غير معروفة يستخدمها المحترفون
- كيفية البدء في الاستثمار في العملات المشفرة (أي منصات التداول التي يجب استخدامها، وأفضل العملات المشفرة للشراء، إلخ)















