谷歌旗下人工智能研究实验室DeepMind透露,他们正在研发一款名为V2A的人工智能工具,该工具能够为人工智能生成的视频添加声音和对话。V2A全称为视频转音频(video-to-audio),它利用文本提示和视频像素来生成视频的对话、音乐和音效。.
另请阅读:谷歌DeepMind推出TacticAI:革新足球战术
据DeepMind称,生成的音效和音乐与视频的预期基调和人物形象相符。DeepMind进一步解释说,这项技术可以帮助人工智能生成的视频更加生动。.
V2A 将音频与视频场景匹配
虽然音频生成技术并不新鲜,但 DeepMind 声称其 V2A 工具是同类产品中的首创,它可以matic音频与视频匹配。.
博客文章: “视频生成模型正在以惊人的速度发展,但许多当前的系统只能生成无声输出。”
“通过对视频、音频和附加注释进行训练,我们的技术学会将特定的音频事件与各种视觉场景关联起来,同时对注释或文字记录中提供的信息做出反应。”
DeepMind。.
该公司补充说,其技术是全自动matic而不是耗时的手动对准,手动对准需要调整声音、视频和时间。
据DeepMind称,V2A工具可以为任何视频输出生成无限数量的trac。正向提示可以“defi生成的输出朝着所需的声音发展”,负向提示则可以“引导其避开不需要的声音”。
该公司表示:“这种灵活性使用户能够更好地控制 V2A 的输出,从而可以快速尝试不同的音频输出并选择最佳匹配。”.
我们将分享我们在视频转音频(V2A)生成技术方面的最新进展。🎥
它可以为无声片段添加与场景声学相匹配的声音,为屏幕上的动作配音等等。.
以下是 4 个例子——请打开声音。🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
— Google DeepMind (@GoogleDeepMind) 2024年6月17日
DeepMind 对竞争无动于衷
Verdict报道,今年早些时候,英国人工智能语音生成器公司ElevenLabs完成了B轮融资,筹集了8000万美元,公司估值超过10亿美元,取得了里程碑式的成就。
该公司称其用户已生成超过100年的音频内容。该公司还声称,其音频软件目前已被41%的财富500强企业使用。.
另请阅读:谷歌DeepMind与OpenAI:人工智能视频生成领域的竞争日趋激烈
尽管面临这样的竞争,DeepMind 已表示他们并不急于向公众发布这项技术。.
该公司表示:“在考虑向更广泛的公众开放之前,我们的 V2A 技术将接受严格的安全评估和测试。”.
DeepMind 还指出,V2A 可以与Veo,从而有助于创建逼真的音效。
Enacy Mapakame 的Cryptopolitan 报告

