En un documento técnico reciente, Microsoft presentó un nuevo modelo de IA que produce una cabeza parlante que parece y suena realista y se genera cargando únicamente una fotografía fija y una muestra de voz.
El nuevo modelo se llama VASA-1 y requiere solo una imagen de estilo retrato y un archivo de audio de voz y los fusiona para crear un video corto de una cabeza parlante con expresiones faciales, sincronización de labios y movimientos de la cabeza. La cabeza producida puede incluso cantar canciones, y eso con la voz cargada en el momento de la creación.
Microsoft VASA-1 es un gran avance para la animación
Según Microsoft, el nuevo modelo de IA aún se encuentra en la fase de investigación y todavía no hay planes de lanzarlo al público en general, y solo los investigadores de Microsoft tienen acceso a él. Sin embargo, la compañía compartió bastantes muestras de las demostraciones, que muestran un realismo sorprendente y movimientos de labios que parecen demasiado reales.
La demostración muestra a personas que parecen reales, como si estuvieran sentadas frente a una cámara y siendo filmadas. Los movimientos de las cabezas son realistas y parecen bastante naturales, y el movimiento de los labios para que coincida con el audio es bastante sobresaliente, aunque parece muy poco que notar algo que no sea natural. La sincronización general de la boca es fenomenal.
Microsoft dijo que el modelo fue desarrollado para animar personajes virtuales y afirmó que todas las personas que se muestran en la demostración son sintéticas, ya que dijeron que los modelos fueron generados a partir de DALL-E, que es el generador de imágenes de OpenAI. Así que pensamos que si puede animar un modelo generado por IA, entonces obviamente tiene mucho más potencial para animar fotos de cualquier persona real, lo que debería ser más realista y mucho más fácil de manejar.
Casos de uso de Vasa-1 y su posible uso indebido
Si analizamos el potencial de VASA-1 para uso práctico, entonces, en principio, se puede utilizar para animar personajes en películas animadas, lo que les dará a los personajes una sensación más realista con expresiones faciales y movimientos de cabeza naturales. Otro uso podría ser en videojuegos, por la misma razón, piense en Grand Theft Auto y similares. En el futuro, se podrá utilizar para películas o series hiperrealistas generadas por IA en las que los personajes se puedan generar a partir de generadores de imágenes y se puedan animar mediante VASA-1, y es posible que el público ni siquiera sienta que los personajes no son humanos.
Además del uso creativo de la herramienta, también se puede aprovechar para crear contenido con fines maliciosos. El posible uso indebido de VASA-1 podría ser su utilización para deepfakes, ya que facilitará que cualquier persona involucrada en creaciones deepfake amplíe sus malas tácticas y genere contenido engañoso más realista. ¿Recuerda el escándalo de las llamadas automáticas que involucró la voz de Biden para impedir que la gente votara antes de las elecciones primarias? Ahora podría ser un robovideo después de la robocall, y eso con expresiones humanas muy realistas.
El riesgo potencial de uso indebido puede ser la razón por la que Microsoft ha limitado sus pruebas únicamente a sus investigadores. Según los de Microsoft , la herramienta se puede utilizar para crear contenido engañoso y engañoso para hacerse pasar por humanos, como otras herramientas, pero su objetivo es aplicaciones de uso positivo. Nvidia y Runway AI también han lanzado sus modelos para la misma función, pero VASA-1 parece mucho más realista y un candidato prometedor.
El artículo de investigación se puede ver aquí y la nota aquí.