DeepMind, el laboratorio de investigación de IA de Google, ha revelado que está trabajando en una herramienta de IA conocida como V2A, capaz de crear sonido y diálogos para vídeos generados por IA. V2A, que significa vídeo a audio, utiliza indicaciones de texto y píxeles de vídeo para generar diálogos, música y efectos de sonido para vídeos.
Lea también: Google DeepMind presenta TacticAI: revolucionando las tácticas del fútbol
Según DeepMind, los efectos de sonido y la música generados se ajustan al tono y los personajes previstos del video. DeepMind explicó además que la tecnología podría dar más vida a los videos generados por IA.
V2A combina audio con escenas de vídeo
Si bien la tecnología de generación de audio no es nada nuevo, DeepMind afirma que su herramienta V2A es la primera de su tipo, que combinamaticel audio con el video.
“Los modelos de generación de video están avanzando a un ritmo increíble, pero muchos sistemas actuales solo pueden generar una salida silenciosa”, escribió DeepMind en una publicación de blog .
“Al entrenarse con video, audio y anotaciones adicionales, nuestra tecnología aprende a asociar eventos de audio específicos con diversas escenas visuales, al tiempo que responde a la información proporcionada en las anotaciones o transcripciones”
Mente profunda.
La compañía agregó que su tecnología es automática matic a diferencia de la alineación manual que requiere mucho tiempo y ajustar sonidos, videos y tiempos.
Según DeepMind, la herramienta V2A permite generar un número ilimitado detracde sonido para cualquier salida de vídeo. Se puededefiun mensaje positivo para guiar la salida generada hacia los sonidos deseados, o un mensaje negativo para alejarla de los sonidos no deseados
"Esta flexibilidad brinda a los usuarios más control sobre la salida de V2A, lo que hace posible experimentar rápidamente con diferentes salidas de audio y elegir la mejor opción", afirmó la compañía.
Estamos compartiendo el progreso de nuestra tecnología generativa de video a audio (V2A). 🎥
Puede agregar sonido a clips silenciosos que coincidan con la acústica de la escena, acompañen la acción en pantalla y más.
Aquí tienes 4 ejemplos: activa el sonido. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
— Google DeepMind (@GoogleDeepMind) 17 de junio de 2024
Deepmind no se deja intimidar por la competencia
La última innovación surge en un momento en que DeepMind busca consolidar su dominio en el sector. A principios de este año, la empresa británica de generación de voz con IA ElevenLabs alcanzó un hito tras su ronda de financiación de serie B, que generó 80 millones de dólares, lo que la valoró en más de mil millones de dólares, según Verdict .
La compañía afirma que sus usuarios han generado más de 100 años de audio. También afirma que su software de audio es utilizado actualmente por el 41% de las empresas de Fortune 500.
Lea también: Google DeepMind vs. OpenAI: La carrera en la generación de video con IA se intensifica
A pesar de esta competencia, DeepMind ha indicado que no tienen prisa por lanzar la tecnología al público.
“Antes de considerar abrir el acceso al público en general, nuestra tecnología V2A se someterá a rigurosas evaluaciones y pruebas de seguridad”, afirmó la empresa.
DeepMind también indicó que V2A se puede combinar con modelos de generación de video como Veo , lo que ayuda a crear efectos de sonido realistas.
Informe Cryptopolitan de Enacy Mapakame

