DeepMind, исследовательская лаборатория искусственного интеллекта Google, сообщила, что работает над инструментом искусственного интеллекта, известным как V2A, который может создавать звук и диалоги для видео, созданных искусственным интеллектом. V2A, что означает «видео в аудио», использует текстовые подсказки и видеопиксели для создания диалогов, музыки и звуковых эффектов для видео.
Читайте также: Google DeepMind представляет TacticAI: революция в футбольных тактиках
По данным DeepMind, созданные звуковые эффекты и музыка соответствуют предполагаемому тону и персонажам видео. DeepMind далее пояснил, что эта технология может помочь оживить видео, созданное искусственным интеллектом.
V2A сопоставляет аудио с видеосценами
Хотя в технологии генерации звука нет ничего нового, DeepMind утверждает, что ее инструмент V2A является первым в своем роде, которыйmaticсопоставляет аудио с видео.
«Модели генерации видео развиваются невероятными темпами, но многие современные системы могут генерировать только тихий вывод», — написал DeepMind в своем блоге .
«Благодаря обучению видео, аудио и дополнительным аннотациям наша технология учится связывать определенные аудиособытия с различными визуальными сценами, реагируя при этом на информацию, представленную в аннотациях или расшифровках».
ДипМайнд.
Компания добавила, что ее технология является автоматической matic в отличие от трудоемкой ручной настройки, требующей настройки звука, видео и тайминга.
По данным DeepMind, инструмент V2A можно использовать для создания неограниченного количества звуковыхtracдля любого видеовыхода. Положительная подсказка может быть «defiтак, чтобы направлять генерируемый результат в сторону желаемых звуков, или отрицательная подсказка, чтобы отклонять ее от нежелательных звуков».
«Эта гибкость дает пользователям больше контроля над выходом V2A, позволяя быстро экспериментировать с различными аудиовыходами и выбирать наиболее подходящий», — заявили в компании.
Мы делимся прогрессом в области генеративной технологии преобразования видео в аудио (V2A). 🎥
Он может добавлять к немым клипам звук, соответствующий акустике сцены, сопровождающий действия на экране и многое другое.
Вот 4 примера – включите звук. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
– Google DeepMind (@GoogleDeepMind) 17 июня 2024 г.
Deepmind не тронут конкуренцией
Последняя инновация появилась, когда DeepMind хочет укрепить свое доминирование в отрасли. Ранее в этом году британская компания ElevenLabs, занимающаяся созданием голосовых генераторов искусственного интеллекта, достигла важной вехи после того, как ее раунд финансирования серии B принес 80 миллионов долларов, что позволило оценить компанию более чем в 1 миллиард долларов, согласно данным Verdict .
Компания заявляет, что ее пользователи создали аудио за более чем 100 лет. Компания также утверждает, что ее аудиопрограммное обеспечение в настоящее время используется 41% компаний из списка Fortune 500.
Читайте также: Google DeepMind против OpenAI: гонка в создании видео с использованием искусственного интеллекта набирает обороты
Несмотря на эту конкуренцию, DeepMind заявила, что не торопится публиковать технологию.
«Прежде чем мы рассмотрим возможность открытия доступа для широкой публики, наша технология V2A пройдет строгую оценку и тестирование безопасности», — заявили в компании.
DeepMind также отметила, что V2A совместима с моделями генерации видео, такими как Veo , что помогает создавать реалистичные звуковые эффекты.
Криптополитический репортаж Энаси Мапакаме
Криптополитическая академия: устал от рыночных колебаний? Узнайте, как DeFi может помочь вам получить стабильный пассивный доход. Зарегистрироваться сейчас