Исследовательская лаборатория Google по искусственному интеллекту DeepMind сообщила о разработке инструмента V2A, способного создавать звук и диалоги для видеороликов, сгенерированных ИИ. V2A (video-to-audio) использует текстовые подсказки и видеопиксели для генерации диалогов, музыки и звуковых эффектов для видео.
Читайте также: Google DeepMind представляет TacticAI: революционизация футбольной тактики
По данным DeepMind, сгенерированные звуковые эффекты и музыка соответствуют задуманному тону и персонажам видео. DeepMind также пояснила, что эта технология может помочь вдохнуть больше жизни в видеоролики, созданные с помощью ИИ.
V2A сопоставляет аудио и видеосцены
Хотя технологии генерации звука не являются чем-то новым, DeepMind утверждает, что ее инструмент V2A — первый в своем роде, которыйmaticсопоставляет аудио и видео.
«Модели генерации видео развиваются невероятными темпами, но многие современные системы способны генерировать только бесшумный вывод», — написала компания DeepMind в своем блоге .
«Благодаря обучению на видео, аудио и дополнительных аннотациях наша технология учится связывать конкретные аудиособытия с различными визуальными сценами, реагируя при этом на информацию, содержащуюся в аннотациях или стенограммах»
ДипМайнд.
Компания добавила, что ее технология автоматизирована, matic отличие от трудоемкой ручной настройки, требующей корректировки звуков, видео и временных параметров.
По данным DeepMind, инструмент V2A позволяет генерировать неограниченное количество звуковыхtracдля любого видеовыходного файла. Положительная подсказка может быть «defiдля направления сгенерированного выходного файла к желаемым звукам, а отрицательная — для направления его от нежелательных звуков»
«Такая гибкость дает пользователям больше контроля над выходным сигналом V2A, позволяя быстро экспериментировать с различными аудиовыходами и выбирать наиболее подходящий вариант», — заявила компания.
Мы делимся информацией о ходе разработки нашей генеративной технологии преобразования видео в аудио (V2A). 🎥
Она может добавлять звук к немым видеороликам, подстраивая его под акустику сцены, сопровождать действия на экране и многое другое.
Вот 4 примера – включите звук. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
— Google DeepMind (@GoogleDeepMind) 17 июня 2024 г.
Deepmind не поддается влиянию конкуренции
Последняя инновация появилась в то время, когда DeepMind стремится укрепить свое доминирование в отрасли. Ранее в этом году британская компания ElevenLabs, занимающаяся генерацией голоса с помощью ИИ, достигла важной вехи, получив в рамках раунда финансирования серии B 80 миллионов долларов, что, по данным Verdict .
Компания утверждает, что её пользователи создали аудиозаписи, охватывающие более 100 лет. Она также заявляет, что её программное обеспечение для работы со звуком в настоящее время используется 41% компаний из списка Fortune 500.
Читайте также: Google DeepMind против OpenAI: гонка в области создания видео с помощью ИИ накаляется
Несмотря на конкуренцию, компания DeepMind заявила, что не спешит выпускать свою технологию в открытый доступ.
«Прежде чем мы рассмотрим возможность предоставления доступа широкой публике, наша технология V2A пройдет тщательную оценку безопасности и тестирование», — заявила компания.
Компания DeepMind также отметила, что V2A совместима с моделями генерации видео, такими как Veo , что помогает создавать реалистичные звуковые эффекты.
Cryptopolitan репортаж Энаси Мапакаме

