В недавнем техническом документе Microsoft представила новую модель искусственного интеллекта, которая создает говорящую голову, выглядящую и звучащую реалистично. Для ее создания достаточно загрузить неподвижную фотографию и образец голоса.
Новая модель получила название VASA-1. Для её работы достаточно одного портретного изображения и аудиофайла с голосом, после чего она объединяет их в короткое видео говорящей головы с мимикой, синхронизацией губ и движениями головы. Полученная голова даже может петь песни, причём голосом, загруженным в процессе создания.
Microsoft VASA-1 — это прорыв в области анимации
По данным Microsoft, новая модель искусственного интеллекта всё ещё находится на стадии исследований, и пока нет планов её выпуска для широкой публики, а доступ к ней имеют только исследователи Microsoft. Тем не менее, компания поделилась несколькими демонстрационными примерами, которые демонстрируют потрясающий реализм и движения губ, кажущиеся слишком реалистичными.

В демо-версии люди выглядят настоящими, как будто сидят перед камерой и их снимают. Движения голов реалистичны и выглядят вполне естественно, а движение губ, синхронизированное со звуком, просто великолепное, хотя, кажется, нет ничего, что могло бы показаться неестественным. Общая синхронизация движений губ феноменальна.
Microsoft заявила, что модель была разработана для анимации виртуальных персонажей, и заявила, что все люди, показанные в демонстрации, являются синтетическими. По её словам, модели были созданы с помощью DALL-E, генератора изображений OpenAI. Поэтому мы считаем, что если модель может анимировать модель, созданную ИИ, то, очевидно, у неё есть гораздо больший потенциал для анимации фотографий любого реального человека, что должно быть более реалистично и гораздо проще для обработки.
Варианты использования Vasa-1 и его потенциальное нецелевое использование

Если рассматривать потенциал VASA-1 для практического применения, то, по сути, он может быть использован для анимации персонажей в анимационных фильмах, что придаст им более реалистичный вид благодаря естественной мимике и движениям головы. Другим вариантом применения может стать видеоигра, по той же причине, например, Grand Theft Auto и подобные игры. В будущем он может быть использован для создания гиперреалистичных фильмов и сериалов, создаваемых искусственным интеллектом, где персонажи могут быть сгенерированы генераторами изображений и анимированы с помощью VASA-1, и зрители могут даже не почувствовать, что это не люди.
Помимо творческого использования инструмента, его также можно использовать для создания вредоносного контента. Потенциальным злоупотреблением VASA-1 может стать его применение для создания дипфейков, поскольку это позволит любому, кто занимается созданием дипфейков, масштабировать свои злонамеренные тактики и создавать более реалистичный, вводящий в заблуждение контент. Помните скандал с робозвонком, в котором голос Байдена был использован для того, чтобы удержать людей от голосования перед праймериз? Теперь после робозвонка может появиться робовидео, причём с очень реалистичными человеческими выражениями.
Потенциальный риск ненадлежащего использования может быть причиной того, что Microsoft ограничила тестирование только своими исследователями. По мнению Microsoft , этот инструмент может быть использован для создания вводящего в заблуждение и обманного контента, выдающего себя за людей, как и некоторые другие инструменты, но они нацелены на позитивное использование. Nvidia и Runway AI также выпустили свои модели для той же функции, но VASA-1 представляется гораздо более реалистичным и перспективным кандидатом.

