加载中...

微软的 VASA-1 可以仅从一张图像生成逼真的说话面孔

长话短说

  • 微软的一篇研究论文介绍了一个生成会说话的人的研究项目。
  • 新的人工智能模型可以通过上传单张照片和语音注释来生成会说话的面孔或头部。
  • 动画面孔具有逼真的面部表情和嘴唇动作,使声音与现实生活中的头部动作相匹配。

在最近的一份白皮书中,微软推出了一种新的人工智能模型,该模型可以产生一个看起来和听起来都很真实的会说话的头部,并且只需上传一张静态照片和一个语音样本即可生成。

新模型被命名为VASA-1,它只需要一张肖像风格的图片和一个语音音频文件,并将它们融合在一起制作一个带有面部表情、唇形同步和头部动作的头部说话的短视频。 制作出来的头甚至可以唱歌,并且是在创作时上传的声音。

Microsoft VASA-1 是动画领域的一项突破

微软表示,新的AI模型仍处于研究阶段,目前还没有向公众发布的计划,只有微软研究人员可以接触到。 然而,该公司分享了相当多的演示样本,这些样本显示出令人惊叹的真实感和嘴唇动作,看起来过于逼真。

资料来源:微软

该演示展示了看起来真实的人们,就好像他们坐在摄像机前并被拍摄一样。 头部的动作很真实,看起来很自然,与音频相匹配的嘴唇动作也非常出色,但似乎没有什么不自然的地方。 整体嘴巴的同步性是惊人的。

微软表示,该模型是为了制作虚拟角色动画而开发的,并声称演示中显示的所有人物都是合成的,正如他们所说,这些模型是由 OpenAI 的图像生成器 DALL-E 生成的。 因此,我们认为,如果它可以为人工智能生成的模型制作动画,那么显然它有更大的潜力为任何真人的照片制作动画,这应该更加真实,并且更容易处理。

Vasa-1 的用例及其潜在的误用

资料来源:微软

如果我们看看VASA-1在实际应用中的潜力,那么在基线上,它可以用来制作动画电影中的角色动画,这将通过自然的面部表情和头部动作给角色带来更真实的感觉。 出于同样的原因,另一个用途可能是在视频游戏中,例如《侠盗猎车手》等。 未来它可能会用于超现实的人工智能生成的电影或系列,其中的角色可以由图像生成器生成,并可以由 VASA-1 制作动画,观众甚至可能感觉不到角色不是人类。

除了创造性地使用该工具之外,它还可以被用来创建用于恶意目的的内容。 VASA-1 的潜在滥用可能是其用于深度伪造,因为它将使参与深度伪造创作的任何人都可以轻松扩大其不良策略并生成更现实的误导内容。 还记得拜登在初选前用声音阻止人们投票的机器人电话丑闻吗? 现在,它可能是机器人通话之后的机器人视频,并且具有非常逼真的人类表情。

潜在的滥用风险可能是微软将测试仅限于其研究人员的原因。 据微软研究人员称,与其他一些工具一样,该工具可用于创建冒充人类的误导性和欺骗性内容,但他们的目标是积极使用应用程序。 Nvidia 和 Runway AI 也发布了具有相同功能的模型,但 VASA-1 似乎更现实,也是一个有前途的候选者。

该研究论文可以在这里,微软的注释在这里查看。

免责声明: 所提供的信息并非交易建议。 Cryptopolitan.com 对根据本页提供的信息进行的任何投资不承担任何责任。 我们tron建议dent研究和/或咨询合格的专业人士。

分享链接:

阿米尔·谢赫

Amir 是数字行业的媒体、营销和内容专业人士。 阿米尔是内容制作领域的资深人士,现在是一位热心的加密货币支持者、分析师和作家。

阅读最多的

正在加载最常阅读的文章...

掌握加密货币新闻,在收件箱中获取每日更新

相关新闻

科技
隐城
订阅加密波利坦