В недавнем официальном документе Microsoft представила новую модель искусственного интеллекта, которая создает говорящую голову, которая выглядит и звучит реалистично и создается путем загрузки только фотографии и образца голоса.
Новая модель называется VASA-1, для нее требуется только одно изображение в портретном стиле и аудиофайл с голосом, которые объединяются вместе, чтобы создать короткое видео говорящей головы с мимикой, синхронизацией губ и движениями головы. Созданная голова может даже петь песни, причем голосом, загруженным во время создания.
Microsoft VASA-1 — прорыв в анимации
По данным Microsoft, новая модель искусственного интеллекта все еще находится на стадии исследования, и планов по выпуску ее для широкой публики пока нет, и доступ к ней имеют только исследователи Microsoft. Однако компания поделилась немалой частью демонстрационных образцов, которые демонстрируют потрясающую реалистичность и движения губ, которые кажутся слишком реалистичными.
В демоверсии показаны люди, которые выглядят реальными, как будто они сидят перед камерой и их снимают. Движения голов реалистичны и выглядят вполне естественно, а движения губ, соответствующие звуку, весьма выдающиеся, при условии, что кажется, что здесь почти нет ничего неестественного. Общая синхронизация рта феноменальна.
В Microsoft заявили, что модель была разработана для анимации виртуальных персонажей, и заявили, что все люди, показанные в демо, являются синтетическими, поскольку, по их словам, модели были созданы с помощью DALL-E, который является генератором изображений OpenAI. Поэтому мы думаем, что если он может анимировать модель, сгенерированную ИИ, то, очевидно, у него гораздо больше возможностей для анимации фотографий любого реального человека, которые должны быть более реалистичными и с ними намного проще обращаться.
Случаи использования Vasa-1 и его потенциальное неправильное использование
Если рассматривать потенциал VASA-1 для практического использования, то в базовой версии его можно использовать для анимации персонажей в анимационных фильмах, что придаст персонажам более реалистичное ощущение с естественной мимикой и движениями головы. Другое применение может быть в видеоиграх, по той же причине, вспомните Grand Theft Auto и тому подобное. В будущем его можно будет использовать для гиперреалистичных фильмов или сериалов, созданных искусственным интеллектом, где персонажи могут быть созданы с помощью генераторов изображений и анимированы с помощью VASA-1, и зрители могут даже не почувствовать, что персонажи не являются людьми.
Помимо творческого использования этого инструмента, его также можно использовать для создания контента для вредоносных целей. Потенциальным злоупотреблением VASA-1 может стать его использование для дипфейков, поскольку это облегчит всем, кто занимается дипфейками, масштабирование своей плохой тактики и создание более реалистичного вводящего в заблуждение контента. Помните скандал с роботизированным вызовом, связанный с голосом Байдена, который пытался удержать людей от голосования перед первичными выборами? Теперь это может быть робовидео после звонка робота, и с очень реалистичными человеческими выражениями лиц.
Потенциальный риск неправильного использования может быть причиной того, что Microsoft ограничила тестирование только своими исследователями. По мнению Microsoft , этот инструмент можно использовать для создания вводящего в заблуждение и обманчивого контента для выдачи себя за людей, как и некоторые другие инструменты, но они нацелены на позитивное использование приложений. Nvidia и Runway AI также выпустили свои модели с той же функцией, но VASA-1 кажется гораздо более реалистичным и многообещающим кандидатом.
Исследовательскую работу можно увидеть здесь заметку Microsoft — здесь.