Компания Google DeepMind разработала V2A, которая создает звук для видеороликов, созданных с помощью ИИ

Автор:

Энаси Мапакаме

2 минуты чтения, 18 июня 2024 г.

Инструмент V2A позволяет создавать неограниченное количество звуковыхtracдля любого видеовыхода.
Компания DeepMind не будет спешить с выпуском V2A для широкой публики, поскольку инструмент проходит тщательную оценку безопасности.
V2A совместим с инструментами для создания видео, такими как Veo, иmaticподбирает звуки к соответствующим сценам.

Исследовательская лаборатория Google по искусственному интеллекту DeepMind сообщила о разработке инструмента V2A, способного создавать звук и диалоги для видеороликов, сгенерированных ИИ. V2A (video-to-audio) использует текстовые подсказки и видеопиксели для генерации диалогов, музыки и звуковых эффектов для видео.

По данным DeepMind, сгенерированные звуковые эффекты и музыка соответствуют задуманному тону и персонажам видео. DeepMind также пояснила, что эта технология может помочь вдохнуть больше жизни в видеоролики, созданные с помощью ИИ.

V2A сопоставляет аудио и видеосцены

Хотя технологии генерации звука не являются чем-то новым, DeepMind утверждает, что ее инструмент V2A — первый в своем роде, которыйmaticсопоставляет аудио и видео.

«Модели генерации видео развиваются невероятными темпами, но многие современные системы способны генерировать только бесшумный вывод», — написала компания DeepMind в своем блоге.

«Благодаря обучению на видео, аудио и дополнительных аннотациях наша технология учится связывать конкретные аудиособытия с различными визуальными сценами, реагируя при этом на информацию, содержащуюся в аннотациях или стенограммах»

ДипМайнд.

Компания добавила, что ее технология автоматизирована,matic отличие от трудоемкой ручной настройки, требующей корректировки звуков, видео и временных параметров.

По данным DeepMind, инструмент V2A позволяет генерировать неограниченное количество звуковыхtracдля любого видеовыходного файла. Положительная подсказка может быть «defiдля направления сгенерированного выходного файла к желаемым звукам, а отрицательная — для направления его от нежелательных звуков»

«Такая гибкость дает пользователям больше контроля над выходным сигналом V2A, позволяя быстро экспериментировать с различными аудиовыходами и выбирать наиболее подходящий вариант», — заявила компания.

Мы делимся информацией о ходе разработки нашей генеративной технологии преобразования видео в аудио (V2A). 🎥

Она может добавлять звук к немым видеороликам, подстраивая его под акустику сцены, сопровождать действия на экране и многое другое.

Вот 4 примера – включите звук. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62

— Google DeepMind (@GoogleDeepMind) 17 июня 2024 г.

Deepmind не поддается влиянию конкуренции

Последняя инновация появилась в то время, когда DeepMind стремится укрепить свое доминирование в отрасли. Ранее в этом году британская компания ElevenLabs, занимающаяся генерацией голоса с помощью ИИ, достигла важной вехи, получив в рамках раунда финансирования серии B 80 миллионов долларов, что, по данным Verdict.

Компания утверждает, что её пользователи создали аудиозаписи, охватывающие более 100 лет. Она также заявляет, что её программное обеспечение для работы со звуком в настоящее время используется 41% компаний из списка Fortune 500.

Читайте также: Google DeepMind против OpenAI: гонка в области создания видео с помощью ИИ накаляется

Несмотря на конкуренцию, компания DeepMind заявила, что не спешит выпускать свою технологию в открытый доступ.

«Прежде чем мы рассмотрим возможность предоставления доступа широкой публике, наша технология V2A пройдет тщательную оценку безопасности и тестирование», — заявила компания.

Компания DeepMind также отметила, что V2A совместима с моделями генерации видео, такими как Veo, что помогает создавать реалистичные звуковые эффекты.

Cryptopolitan репортаж Энаси Мапакаме

Не просто читайте новости о криптовалютах. Разберитесь в них. Подпишитесь на нашу рассылку. Это бесплатно.

DeepMind ElevenLabs Google

Поделитесь этой статьей

Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtronпровести независимоеdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.

Энаси Мапакаме

Энаси Мапакаме — журналистка с более чем 10-летним опытом работы в сфере деловых и финансовых новостей. Она освещает рынки капитала и новые технологии — метавселенную, искусственный интеллект и криптовалюты. Энаси имеет степень бакалавра наук в области медиа и социальных исследований с отличием.

ОГЛАВЛЕНИЕ

1. V2A сопоставляет аудио и видеосцены

2. Deepmind не поддается влиянию конкуренции

Поделитесь этой статьей