Компания Google DeepMind разработала V2A, которая создает звук для видеороликов, созданных с помощью ИИ

- Инструмент V2A позволяет создавать неограниченное количество звуковыхtracдля любого видеовыхода.
- Компания DeepMind не будет спешить с выпуском V2A для широкой публики, поскольку инструмент проходит тщательную оценку безопасности.
- V2A совместим с инструментами для создания видео, такими как Veo, иmaticподбирает звуки к соответствующим сценам.
Исследовательская лаборатория Google по искусственному интеллекту DeepMind сообщила о разработке инструмента V2A, способного создавать звук и диалоги для видеороликов, сгенерированных ИИ. V2A (video-to-audio) использует текстовые подсказки и видеопиксели для генерации диалогов, музыки и звуковых эффектов для видео.
Читайте также: Google DeepMind представляет TacticAI: революционизация футбольной тактики
По данным DeepMind, сгенерированные звуковые эффекты и музыка соответствуют задуманному тону и персонажам видео. DeepMind также пояснила, что эта технология может помочь вдохнуть больше жизни в видеоролики, созданные с помощью ИИ.
V2A сопоставляет аудио и видеосцены
Хотя технологии генерации звука не являются чем-то новым, DeepMind утверждает, что ее инструмент V2A — первый в своем роде, которыйmaticсопоставляет аудио и видео.
«Модели генерации видео развиваются невероятными темпами, но многие современные системы способны генерировать только бесшумный вывод», — написала компания DeepMind в своем блоге.
«Благодаря обучению на видео, аудио и дополнительных аннотациях наша технология учится связывать конкретные аудиособытия с различными визуальными сценами, реагируя при этом на информацию, содержащуюся в аннотациях или стенограммах»
ДипМайнд.
Компания добавила, что ее технология автоматизирована,matic отличие от трудоемкой ручной настройки, требующей корректировки звуков, видео и временных параметров.
По данным DeepMind, инструмент V2A позволяет генерировать неограниченное количество звуковыхtracдля любого видеовыходного файла. Положительная подсказка может быть «defiдля направления сгенерированного выходного файла к желаемым звукам, а отрицательная — для направления его от нежелательных звуков»
«Такая гибкость дает пользователям больше контроля над выходным сигналом V2A, позволяя быстро экспериментировать с различными аудиовыходами и выбирать наиболее подходящий вариант», — заявила компания.
Мы делимся информацией о ходе разработки нашей генеративной технологии преобразования видео в аудио (V2A). 🎥
Она может добавлять звук к немым видеороликам, подстраивая его под акустику сцены, сопровождать действия на экране и многое другое.
Вот 4 примера – включите звук. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
— Google DeepMind (@GoogleDeepMind) 17 июня 2024 г.
Deepmind не поддается влиянию конкуренции
Последняя инновация появилась в то время, когда DeepMind стремится укрепить свое доминирование в отрасли. Ранее в этом году британская компания ElevenLabs, занимающаяся генерацией голоса с помощью ИИ, достигла важной вехи, получив в рамках раунда финансирования серии B 80 миллионов долларов, что, по данным Verdict.
Компания утверждает, что её пользователи создали аудиозаписи, охватывающие более 100 лет. Она также заявляет, что её программное обеспечение для работы со звуком в настоящее время используется 41% компаний из списка Fortune 500.
Читайте также: Google DeepMind против OpenAI: гонка в области создания видео с помощью ИИ накаляется
Несмотря на конкуренцию, компания DeepMind заявила, что не спешит выпускать свою технологию в открытый доступ.
«Прежде чем мы рассмотрим возможность предоставления доступа широкой публике, наша технология V2A пройдет тщательную оценку безопасности и тестирование», — заявила компания.
Компания DeepMind также отметила, что V2A совместима с моделями генерации видео, такими как Veo, что помогает создавать реалистичные звуковые эффекты.
Cryptopolitan репортаж Энаси Мапакаме
Самые умные криптоаналитики уже читают нашу рассылку. Хотите присоединиться? Вступайте в их ряды.
Предупреждение. Предоставленная информация не является торговой рекомендацией. Cryptopolitanнастоятельно не несет ответственности за любые инвестиции, сделанные на основе информации, представленной на этой странице. Мыtronпровести независимоеdent и/или проконсультироваться с квалифицированным специалистом, прежде чем принимать какие-либо инвестиционные решения.
Энаси Мапакаме
Энаси Мапакаме — журналистка с более чем 10-летним опытом работы в сфере деловых и финансовых новостей. Она освещает рынки капитала и новые технологии — метавселенную, искусственный интеллект и криптовалюты. Энаси имеет степень бакалавра наук в области медиа и социальных исследований с отличием.
КУРС
- Какие криптовалюты могут принести вам деньги?
- Как повысить безопасность своего кошелька (и какие из них действительно стоит использовать)
- Малоизвестные инвестиционные стратегии, используемые профессионалами
- Как начать инвестировать в криптовалюту (какие биржи использовать, какую криптовалюту лучше купить и т.д.)














