ULTIME NOTIZIE
SELEZIONATO PER TE
SETTIMANALE
RIMANI AL TOP

Le migliori analisi sul mondo delle criptovalute, direttamente nella tua casella di posta.

VASA-1 di Microsoft può generare volti parlanti realistici da una sola immagine

DiAamir SheikhAamir Sheikh
Tempo di lettura: 3 minuti.
Vasa-1
  • Un documento di ricerca di Microsoft ha introdotto un progetto di ricerca per generare teste parlanti.
  • Il nuovo modello di intelligenza artificiale è in grado di generare un volto o una testa parlante caricando una singola foto e una nota vocale.
  • Il volto animato presenta espressioni facciali realistiche e movimenti delle labbra che si adattano alla voce e ai movimenti della testa reali.

In un recente white paper, Microsoft ha presentato un nuovo modello di intelligenza artificiale che produce una testa parlante dall'aspetto e dal suono realistici, generata caricando solo una fotografia e un campione vocale.

Il nuovo modello si chiama VASA-1 e richiede solo una foto in formato verticale e un file audio vocale, fondendoli insieme per creare un breve video di una testa parlante con espressioni facciali, sincronizzazione labiale e movimenti della testa. La testa prodotta può persino cantare canzoni, con la voce caricata al momento della creazione.

Microsoft VASA-1 è una svolta per l'animazione

Secondo Microsoft, il nuovo modello di intelligenza artificiale è ancora in fase di ricerca e non è ancora previsto il rilascio al pubblico, e solo i ricercatori Microsoft vi hanno accesso. Tuttavia, l'azienda ha condiviso diversi esempi delle dimostrazioni, che mostrano un realismo sorprendente e movimenti delle labbra che sembrano fin troppo realistici.

Fonte: Microsoft.

La demo mostra persone dall'aspetto reale, come se fossero sedute davanti a una telecamera e venissero filmate. I movimenti delle teste sono realistici e sembrano piuttosto naturali, e il movimento delle labbra che si adatta all'audio è davvero eccezionale, a patto che non ci siano particolari difetti di naturalezza. La sincronizzazione generale della bocca è fenomenale.

Microsoft ha affermato che il modello è stato sviluppato per animare personaggi virtuali e che tutte le persone mostrate nella demo sono sintetiche. Come affermato, i modelli sono stati generati da DALL-E, il generatore di immagini di OpenAI. Quindi, se è in grado di animare un modello generato dall'intelligenza artificiale, allora ovviamente ha un potenziale molto maggiore per animare foto di persone reali, il che dovrebbe essere più realistico e molto più facile da gestire.

Casi d'uso di Vasa-1 e il suo potenziale uso improprio

Fonte: Microsoft.

Considerando il potenziale di VASA-1 per l'uso pratico, allora, in linea di principio, può essere utilizzato per animare personaggi nei film d'animazione, il che conferirà loro un aspetto più realistico, con espressioni facciali e movimenti della testa naturali. Un altro utilizzo potrebbe essere nei videogiochi, per lo stesso motivo, si pensi a Grand Theft Auto e simili. In futuro, potrebbe essere utilizzato per film o serie iperrealistici generati dall'intelligenza artificiale, in cui i personaggi possono essere generati da generatori di immagini e potrebbero essere animati da VASA-1, e il pubblico potrebbe persino non accorgersi che i personaggi non sono umani.

Oltre all'uso creativo dello strumento, può anche essere sfruttato per creare contenuti per scopi dannosi. Il potenziale uso improprio di VASA-1 potrebbe essere il suo utilizzo per i deepfake, poiché renderebbe facile per chiunque sia coinvolto nella creazione di deepfake potenziare le proprie tattiche scorrette e generare contenuti fuorvianti più realistici. Ricordate lo scandalo delle robocall che coinvolgeva la voce di Biden per impedire alle persone di votare prima delle primarie? Ora potrebbe essere un robovideo dopo la robocall, e questo con espressioni umane molto realistiche.

Il potenziale rischio di un uso improprio potrebbe essere il motivo per cui Microsoft ha limitato i test ai soli ricercatori. Secondo i Microsoft , lo strumento può essere utilizzato per creare contenuti fuorvianti e ingannevoli per impersonare esseri umani, come altri strumenti, ma l'obiettivo è di ottenere applicazioni con un utilizzo positivo. Anche Nvidia e Runway AI hanno rilasciato i loro modelli per la stessa funzione, ma VASA-1 sembra molto più realistico e un candidato promettente. 

Le menti più brillanti del mondo delle criptovalute leggono già la nostra newsletter. Vuoi partecipare? Unisciti a loro.

Condividi questo articolo

Disclaimer: Le informazioni fornite non costituiscono consulenza finanziaria. Cryptopolitandeclina ogni responsabilità per gli investimenti effettuati sulla base delle informazioni contenute in questa pagina. Raccomandiamotronindipendentident e/o di consultare un professionista qualificato prima di prendere qualsiasi decisione di investimento.

Aamir Sheikh

Aamir Sheikh

Aamir è un giornalista tecnologico con quasi sei anni di esperienza nel settore delle criptovalute e della tecnologia. Si è laureato alla MAJ University con un MBA in Finanza e Marketing. Attualmente lavora per Cryptopolitan, dove si occupa di reportage sugli ultimi sviluppi dei mercati delle criptovalute e di previsioni sui prezzi.

ALTRE NOTIZIE
CORSO INTENSIVO DI CRIPTOVALUTE