最新消息
为您精选
每周
保持领先

最优质的加密货币资讯直接发送到您的邮箱。.

Google DeepMind 开发出 V2A,可为 AI 视频生成声音。

作者:埃纳西·马帕卡梅Enacy Mapakame
阅读时长:2分钟
深思
  • V2A 工具可用于为任何视频输出生成无限数量的trac。.
  • DeepMind 将花些时间向公众发布 V2A 版本,因为该工具需要经过严格的安全评估。.
  • V2A 可与 Veo 等视频生成工具配合使用,并matic将声音与相应的场景匹配。.

谷歌旗下人工智能研究实验室DeepMind透露,他们正在研发一款名为V2A的人工智能工具,该工具能够为人工智能生成的视频添加声音和对话。V2A全称为视频转音频(video-to-audio),它利用文本提示和视频像素来生成视频的对话、音乐和音效。.

另请阅读: 谷歌DeepMind推出TacticAI:革新足球战术

据DeepMind称,生成的音效和音乐与视频的预期基调和人物形象相符。DeepMind进一步解释说,这项技术可以帮助人工智能生成的视频更加生动。.

V2A 将音频与视频场景匹配

虽然音频生成技术并不新鲜,但 DeepMind 声称其 V2A 工具是同类产品中的首创,它可以matic音频与视频匹配。.

“视频生成模型正在以惊人的速度发展,但许多当前的系统只能生成无声输出。” 博客文章

“通过对视频、音频和附加注释进行训练,我们的技术学会将特定的音频事件与各种视觉场景关联起来,同时对注释或文字记录中提供的信息做出反应。”

DeepMind。.

该公司补充说, 其技术 是全自动matic 而不是耗时的手动对准,手动对准需要调整声音、视频和时间。

据DeepMind称,V2A工具可以为任何视频输出生成无限数量的trac。正向提示可以“defi生成的输出朝着所需的声音发展”,负向提示则可以“引导其避开不需要的声音”。

该公司表示:“这种灵活性使用户能够更好地控制 V2A 的输出,从而可以快速尝试不同的音频输出并选择最佳匹配。”.

DeepMind 对竞争无动于衷

,今年早些时候,英国人工智能语音生成器公司ElevenLabs完成了B轮融资,筹集了8000万美元,公司估值超过10亿美元,取得了里程碑式的成就 Verdict报道

该公司称其用户已生成超过100年的音频内容。该公司还声称,其音频软件目前已被41%的财富500强企业使用。.

另请阅读:谷歌DeepMind与OpenAI:人工智能视频生成领域的竞争日趋激烈

尽管面临这样的竞争,DeepMind 已表示他们并不急于向公众发布这项技术。.

该公司表示:“在考虑向更广泛的公众开放之前,我们的 V2A 技术将接受严格的安全评估和测试。”.

DeepMind 还指出,V2A 可以与 Veo,从而有助于创建逼真的音效。


Enacy Mapakame 的Cryptopolitan 报告

最顶尖的加密货币专家都在阅读我们的简报。想 加入他们

免责声明: 提供的信息并非交易建议。Cryptopolitan.com Cryptopolitan研究 对任何基于本页面信息进行的投资概不负责。我们tron您在做出任何投资决定前进行独立dent /或咨询合格的专业人士。

埃纳西·马帕卡梅

埃纳西·马帕卡梅

Enacy Mapakame是一位拥有超过10年商业和金融新闻从业经验的记者。她关注资本市场和新兴技术,例如元宇宙、人工智能和加密货币。Enacy拥有媒体与社会研究荣誉理学士学位。.

更多…新闻
深度 密码
学速成课程