O VASA-1 da Microsoft consegue gerar rostos falantes realistas a partir de apenas uma imagem

- Um artigo de pesquisa da Microsoft apresentou um projeto de pesquisa para gerar vídeos com pessoas falando diretamente para a câmera (talking headers).
- O novo modelo de IA consegue gerar um rosto ou cabeça falante a partir do envio de uma única foto e uma mensagem de voz.
- O rosto animado possui expressões faciais e movimentos labiais realistas que combinam com a voz e com os movimentos da cabeça na vida real.
Em um relatório técnico recente, a Microsoft apresentou um novo modelo de IA que produz uma cabeça falante com aparência e voz realistas, gerada apenas com o upload de uma fotografia estática e uma amostra de voz.
O novo modelo chama-se VASA-1 e requer apenas uma fotografia em formato retrato e um arquivo de áudio com a voz gravada, combinando-os para criar um vídeo curto de uma pessoa falando, com expressões faciais, sincronização labial e movimentos de cabeça. A pessoa criada pode até cantar músicas, utilizando a voz gravada no momento da criação do vídeo.
O Microsoft VASA-1 é um avanço revolucionário para a animação
Segundo a Microsoft, o novo modelo de IA ainda está em fase de pesquisa e não há planos para disponibilizá-lo ao público em geral. Apenas pesquisadores da Microsoft têm acesso a ele. No entanto, a empresa compartilhou algumas demonstrações que mostram um realismo impressionante e movimentos labiais que parecem extremamente naturais.

A demonstração mostra pessoas que parecem reais, como se estivessem sentadas em frente a uma câmera sendo filmadas. Os movimentos da cabeça são realistas e parecem bastante naturais, e a sincronização labial com o áudio é impressionante, sendo quase imperceptível qualquer sinal de artificialidade. A sincronização labial geral é fenomenal.
A Microsoft afirmou que o modelo foi desenvolvido para animar personagens virtuais e alegou que todas as pessoas mostradas na demonstração são sintéticas, pois os modelos foram gerados pelo DALL-E, o gerador de imagens da OpenAI. Portanto, se ele consegue animar um modelo gerado por IA, obviamente tem um potencial muito maior para animar fotos de pessoas reais, o que seria mais realista e muito mais fácil de processar.
Casos de uso do Vasa-1 e seu potencial uso indevido

Se analisarmos o potencial do VASA-1 para uso prático, podemos afirmar, em princípio, que ele pode ser usado para animar personagens em filmes de animação, conferindo-lhes uma aparência mais realista com expressões faciais e movimentos de cabeça naturais. Outra aplicação possível seria em videogames, pelo mesmo motivo, como em Grand Theft Auto. No futuro, poderá ser utilizado em filmes ou séries hiper-realistas gerados por IA, onde os personagens podem ser criados a partir de geradores de imagens e animados pelo VASA-1, de forma que o público nem perceba que não são humanos.
Além do uso criativo da ferramenta, ela também pode ser explorada para criar conteúdo com fins maliciosos. O potencial mau uso do VASA-1 reside em sua utilização para deepfakes, já que facilitaria a qualquer pessoa envolvida na criação de deepfakes ampliar suas táticas maliciosas e gerar conteúdo enganoso mais realista. Lembra-se do escândalo das ligações automáticas com a voz de Biden para dissuadir as pessoas de votarem antes das primárias? Agora, um vídeo falso poderia ser criado após a ligação, e com expressões humanas muito realistas.
O potencial risco de uso indevido pode ser o motivo pelo qual a Microsoft limitou seus testes apenas aos seus pesquisadores. Segundo eles , a ferramenta pode ser usada para criar conteúdo enganoso e fraudulento para se passar por humanos, como algumas outras ferramentas, mas o objetivo é desenvolver aplicações com uso positivo. A Nvidia e a Runway AI também lançaram seus modelos para a mesma função, mas o VASA-1 parece muito mais realista e um candidato promissor.
As mentes mais brilhantes do mundo das criptomoedas já leem nossa newsletter. Quer participar? Junte-se a elas.
Aviso: As informações fornecidas não constituem aconselhamento de investimento. Cryptopolitannão se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrona realização de pesquisas independentesdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Aamir Sheikh
Aamir é um jornalista de tecnologia com quase seis anos de experiência nos setores de criptomoedas e tecnologia. Ele se formou na MAJ University com um MBA em Finanças e Marketing. Atualmente, trabalha na Cryptopolitan, onde reporta sobre os últimos acontecimentos nos mercados de criptomoedas e previsões de preços.
- Quais criptomoedas podem te fazer ganhar dinheiro?
- Como aumentar a segurança da sua carteira digital (e quais realmente valem a pena usar)
- Estratégias de investimento pouco conhecidas que os profissionais utilizam
- Como começar a investir em criptomoedas (quais corretoras usar, as melhores criptomoedas para comprar etc.)















