Google DeepMind desarrolla V2A que crea sonido para vídeos de IA

Por

Enacy Mapakame

Lectura de 2 minutos. 18 de junio de 2024.

La herramienta V2A se puede utilizar para generar una cantidad ilimitada detracde sonido para cualquier salida de vídeo.
DeepMind se tomará su tiempo para lanzar V2A al público mientras la herramienta se somete a rigurosas evaluaciones de seguridad.
V2A se puede combinar con herramientas de generación de video como Veo y adaptamaticlos sonidos a las escenas apropiadas.

DeepMind, el laboratorio de investigación de IA de Google, ha revelado que está trabajando en una herramienta de IA conocida como V2A, capaz de crear sonido y diálogos para vídeos generados por IA. V2A, que significa vídeo a audio, utiliza indicaciones de texto y píxeles de vídeo para generar diálogos, música y efectos de sonido para vídeos.

Lea también: Google DeepMind presenta TacticAI: revolucionando las tácticas del fútbol

Según DeepMind, los efectos de sonido y la música generados se ajustan al tono y los personajes previstos del video. DeepMind explicó además que la tecnología podría dar más vida a los videos generados por IA.

V2A combina audio con escenas de vídeo

Si bien la tecnología de generación de audio no es nada nuevo, DeepMind afirma que su herramienta V2A es la primera de su tipo, que combinamaticel audio con el video.

“Los modelos de generación de vídeo están avanzando a un ritmo increíble, pero muchos sistemas actuales solo pueden generar sonido”, escribió DeepMind en una publicación de blog.

“Al entrenarse con video, audio y anotaciones adicionales, nuestra tecnología aprende a asociar eventos de audio específicos con diversas escenas visuales, al tiempo que responde a la información proporcionada en las anotaciones o transcripciones”

Mente profunda.

La compañía agregó que su tecnología es automáticamatic a diferencia de la alineación manual que requiere mucho tiempo y ajustar sonidos, videos y tiempos.

Según DeepMind, la herramienta V2A permite generar un número ilimitado detracde sonido para cualquier salida de vídeo. Se puededefiun mensaje positivo para guiar la salida generada hacia los sonidos deseados, o un mensaje negativo para alejarla de los sonidos no deseados

"Esta flexibilidad brinda a los usuarios más control sobre la salida de V2A, lo que hace posible experimentar rápidamente con diferentes salidas de audio y elegir la mejor opción", afirmó la compañía.

Estamos compartiendo los avances de nuestra tecnología generativa de vídeo a audio (V2A). 🎥

Puede agregar sonido a clips silenciosos que coincidan con la acústica de la escena, acompañen la acción en pantalla y más.

Aquí tienes 4 ejemplos: activa el sonido. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62

— Google DeepMind (@GoogleDeepMind) 17 de junio de 2024

Deepmind no se deja intimidar por la competencia

La última innovación surge en un momento en que DeepMind busca consolidar su dominio en el sector. A principios de este año, la empresa británica de generación de voz con IA ElevenLabs alcanzó un hito tras su ronda de financiación de serie B, que generó 80 millones de dólares, lo que la valoró en más de mil millones de dólares, según Verdict.

La compañía afirma que sus usuarios han generado más de 100 años de audio. También afirma que su software de audio es utilizado actualmente por el 41% de las empresas de Fortune 500.

Lea también: Google DeepMind vs. OpenAI: La carrera en la generación de video con IA se intensifica

A pesar de esta competencia, DeepMind ha indicado que no tienen prisa por lanzar la tecnología al público.

“Antes de considerar abrir el acceso al público en general, nuestra tecnología V2A se someterá a rigurosas evaluaciones y pruebas de seguridad”, afirmó la empresa.

DeepMind también indicó que V2A se puede combinar con modelos de generación de video como Veo, lo que ayuda a crear efectos de sonido realistas.

Informe Cryptopolitan de Enacy Mapakame

Si estás leyendo esto, ya llevas ventaja. Mantente al día con nuestro boletín informativo.

DeepMind ElevenLabs Google

Comparte este artículo

Aviso legal. La información proporcionada no constituye asesoramiento comercial. Cryptopolitanconsultar no se responsabiliza de las inversiones realizadas con base en la información proporcionada en esta página. Recomendamostronencarecidamente realizar una investigación independientedent un profesional cualificado antes de tomar cualquier decisión de inversión.

Enacy Mapakame

Enacy Mapakame es periodista con más de 10 años de experiencia en noticias empresariales y financieras. Cubre mercados de capitales y tecnologías emergentes: el metaverso, la IA y las criptomonedas. Enacy es licenciada con honores en Estudios de Medios y Sociedad.

ÍNDICE

1. V2A combina audio con escenas de vídeo

2. Deepmind no se deja intimidar por la competencia

Comparte este artículo