Chargement...

Le VASA-1 de Microsoft peut générer des visages parlants réalistes à partir d'une seule image

TL; DR

  • Un document de recherche de Microsoft a présenté un projet de recherche visant à générer des têtes parlantes.
  • Le nouveau modèle d'IA peut générer un visage ou une tête parlant en téléchargeant une seule photo et une note vocale.
  • Le visage animé présente des expressions faciales et des mouvements de lèvres réalistes pour faire correspondre la voix aux mouvements de tête réels.

Dans un récent livre blanc, Microsoft a présenté un nouveau modèle d'IA qui produit une tête parlante d'apparence réaliste et générée en téléchargeant uniquement une photo et un échantillon de voix.

Le nouveau modèle s'appelle VASA-1 et ne nécessite qu'une seule image de style portrait et un fichier audio de voix et les fusionne pour créer une courte vidéo d'une tête parlante avec des expressions faciales, une synchronisation labiale et des mouvements de tête. La tête produite peut même chanter des chansons, et cela avec la voix téléchargée au moment de la création.

Microsoft VASA-1 est une avancée majeure pour l'animation

Selon Microsoft, le nouveau modèle d'IA est encore en phase de recherche et il n'est toujours pas prévu de le rendre public, et seuls les chercheurs de Microsoft y ont accès. Cependant, la société a partagé de nombreux échantillons de démonstrations, qui montrent un réalisme époustouflant et des mouvements de lèvres qui semblent trop réalistes.

Source : Microsoft .

La démo montre des gens qui ont l'air réels, comme s'ils étaient assis devant une caméra et filmés. Les mouvements des têtes sont réalistes et semblent tout à fait naturels, et le mouvement des lèvres qui correspond à l'audio est tout à fait remarquable, à condition qu'il semble y avoir très peu de choses à remarquer qui ne soient pas naturelles. La synchronisation globale de la bouche est phénoménale.

Microsoft a déclaré que le modèle avait été développé pour animer des personnages virtuels et a affirmé que toutes les personnes présentées dans la démo étaient synthétiques, comme ils l'ont dit, les modèles avaient été générés à partir de DALL-E, qui est le générateur d'images d'OpenAI. Nous pensons donc que s’il peut animer un modèle généré par l’IA, il y a évidemment beaucoup plus de potentiel pour animer des photos de n’importe quelle personne réelle, ce qui devrait être plus réaliste et beaucoup plus facile à gérer.

Cas d'utilisation de Vasa-1 et son utilisation abusive potentielle

Source : Microsoft .

Si nous examinons le potentiel de VASA-1 pour une utilisation pratique, alors, en base, il peut être utilisé pour animer des personnages dans des films d'animation, ce qui donnera aux personnages une sensation plus réaliste avec des expressions faciales et des mouvements de tête naturels. Une autre utilisation pourrait être dans les jeux vidéo, pour la même raison, pensez à Grand Theft Auto et autres. À l'avenir, il pourrait être utilisé pour des films ou des séries hyper réalistes générés par l'IA, dans lesquels les personnages peuvent être générés à partir de générateurs d'images et pourraient être animés par VASA-1, et le public pourrait même ne pas avoir l'impression que les personnages ne sont pas des humains.

Parallèlement à une utilisation créative de l'outil, il peut également être exploité pour créer du contenu à des fins malveillantes. L'utilisation abusive potentielle de VASA-1 pourrait être son utilisation pour les deepfakes, car cela permettra à toute personne impliquée dans la création de deepfake d'intensifier ses mauvaises tactiques et de générer un contenu trompeur plus réaliste. Vous vous souvenez du scandale des appels automatisés impliquant la voix de Biden pour empêcher les gens de voter avant une élection primaire ? Maintenant, il pourrait s'agir d'une robovideo après le robocall, et cela avec des expressions humaines très réalistes.

Le risque potentiel d'utilisation abusive est peut-être la raison pour laquelle Microsoft a limité ses tests à ses chercheurs uniquement. Selon de Microsoft , l'outil peut être utilisé pour créer du contenu trompeur et trompeur pour se faire passer pour des humains, comme certains autres outils, mais ils visent des applications à usage positif. Nvidia et Runway AI ont également publié leurs modèles pour la même fonction, mais VASA-1 semble bien plus réaliste et un candidat prometteur.

Le document de recherche peut être consulté ici et la note ici.

Avis de non-responsabilité :  les informations fournies ne constituent pas des conseils commerciaux. Cryptopolitan.com décline toute responsabilité pour les investissements effectués sur la base des informations fournies sur cette page. Nous recommandons vivement de faire tron dent et/ou de consulter un professionnel qualifié avant de prendre toute décision d'investissement.

Lien de partage:

Aamir Cheikh

Amir est un professionnel des médias, du marketing et du contenu travaillant dans l'industrie numérique. Un vétéran de la production de contenu, Amir est maintenant un partisan enthousiaste de la crypto-monnaie, un analyste et un écrivain.

Les plus lus

Chargement des articles les plus lus...

Restez au courant de l'actualité crypto, recevez des mises à jour quotidiennes dans votre boîte de réception

Nouvelles connexes

Technologie
cryptopolite
Abonnez-vous à CryptoPolitan