微软的VASA-1只需一张图片就能生成逼真的说话面孔。

经过

阿米尔·谢赫

阅读时长：3分钟发布日期：2024年4月19日

微软发布的一份研究报告介绍了一个旨在生成会说话的人物模型的研究项目。.
新的人工智能模型只需上传一张照片和一段语音信息，即可生成会说话的脸部或头部图像。.
动画人物的面部表情和嘴唇动作逼真，能够与声音和真实的头部动作相匹配。.

微软最近发布的一份白皮书介绍了一种新的人工智能模型，该模型只需上传一张静态照片和一个语音样本，即可生成一个看起来和听起来都很逼真的会说话的头像。.

这款名为VASA-1的新模型只需要一张人像照片和一个语音文件，就能将两者融合，制作出一个带有面部表情、口型同步和头部动作的会说话的头部短视频。生成的头部甚至可以唱歌，而且是用创建视频时上传的语音演唱的。.

微软 VASA-1 是动画领域的一项突破。

微软表示，这款新的人工智能模型仍处于研发阶段，目前尚无公开发布的计划，只有微软研究人员才能使用。不过，该公司分享了一些演示样本，这些样本展现了惊人的逼真度和栩栩如生的唇部动作。.

演示视频中的人物看起来非常逼真，就像真的坐在镜头前拍摄一样。头部动作真实自然，嘴唇动作与音频的同步也十分出色，几乎找不到任何不自然的地方。整体的口型同步效果堪称完美。.

微软表示，该模型是为虚拟角色动画而开发的，并声称演示中展示的所有人物都是合成的。他们说，这些模型是由 OpenAI 的图像生成器 DALL-E 生成的。因此，我们认为，如果它能够为 AI 生成的模型制作动画，那么显然它在为真人照片制作动画方面拥有更大的潜力，这应该会更加逼真，也更容易处理。.

Vasa-1 的应用案例及其潜在滥用

如果我们审视VASA-1的实际应用潜力，首先，它可以用于动画电影中的角色动画制作，赋予角色更逼真的面部表情和头部动作，使其更具真实感。出于同样的原因，它也可以应用于电子游戏，例如《侠盗猎车手》等游戏。未来，它或许可以用于制作超逼真的AI电影或剧集，届时角色可以由图像生成器生成，并由VASA-1进行动画制作，观众甚至可能感觉不到这些角色并非真人。.

除了创造性地使用该工具外，它也可能被用于恶意内容创作。VASA-1 的潜在滥用之处在于其可用于深度伪造技术，因为它能让任何参与深度伪造制作的人更容易扩大其不良手段，并生成更逼真、更具误导性的内容。还记得拜登的声音被用来阻止人们在初选前投票的自动语音电话丑闻吗？现在，在自动语音电话之后，可能会出现一段带有非常逼真人类表情的自动语音视频。.

微软之所以将测试范围限制在研究人员之内，或许正是出于对潜在滥用风险的担忧。据微软研究人员称，该工具与其他一些工具一样，可用于创建误导性和欺骗性的内容以冒充人类，但他们的目标是将其应用于积极的领域。英伟达和 Runway AI 也发布了用于相同功能的模型，但 VASA-1 似乎更加实用，也更有前景。

最顶尖的加密货币专家都在阅读我们的简报。想加入他们？

分享这篇文章