O Google DeepMind desenvolve o V2A, que cria som para vídeos de IA

Por

Enacy Mapakame

Tempo de leitura: 2 minutos - 18 de junho de 2024

A ferramenta V2A pode ser usada para gerar um número ilimitado detracsonoras para qualquer saída de vídeo.
A DeepMind não terá pressa em lançar a versão V2A ao público, pois a ferramenta passa por rigorosas avaliações de segurança.
O V2A é compatível com ferramentas de geração de vídeo como o Veo e combinamaticos sons com as cenas apropriadas.

O DeepMind, laboratório de pesquisa em IA do Google, revelou que está trabalhando em uma ferramenta de IA chamada V2A, capaz de criar som e diálogos para vídeos gerados por IA. O V2A, sigla para "vídeo para áudio", utiliza instruções em texto e pixels de vídeo para gerar diálogos, música e efeitos sonoros para vídeos.

Segundo a DeepMind, os efeitos sonoros e a música gerados correspondem ao tom e aos personagens pretendidos para o vídeo. A DeepMind explicou ainda que a tecnologia pode ajudar a dar mais vida aos vídeos gerados por IA.

O V2A sincroniza o áudio com as cenas de vídeo

Embora a tecnologia de geração de áudio não seja novidade, a DeepMind afirma que sua ferramenta V2A é a primeira do gênero, capaz de combinarmaticáudio e vídeo.

“Os modelos de geração de vídeo estão avançando em um ritmo incrível, mas muitos sistemas atuais só conseguem gerar saída silenciosa”, escreveu a DeepMind em uma postagem no blog.

“Ao treinar com vídeo, áudio e anotações adicionais, nossa tecnologia aprende a associar eventos de áudio específicos a várias cenas visuais, enquanto responde às informações fornecidas nas anotações ou transcrições.”

DeepMind.

A empresa acrescentou que sua tecnologia é automáticamatic ao contrário do alinhamento manual demorado que exige o ajuste de sons, vídeos e tempos.

Segundo a DeepMind, a ferramenta V2A pode ser usada para gerar um número ilimitado detracsonoras para qualquer saída de vídeo. Um comando positivo pode serdefipara direcionar a saída gerada para os sons desejados, ou um comando negativo para afastá-la dos sons indesejados

“Essa flexibilidade oferece aos usuários mais controle sobre a saída do V2A, possibilitando experimentar rapidamente diferentes saídas de áudio e escolher a que melhor se adapta”, afirmou a empresa.

Estamos compartilhando o progresso da nossa tecnologia generativa de vídeo para áudio (V2A). 🎥

Ele pode adicionar som a clipes silenciosos que combinem com a acústica da cena, acompanhar a ação na tela e muito mais.

Aqui estão 4 exemplos – ligue o som. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62

— Google DeepMind (@GoogleDeepMind) 17 de junho de 2024

DeepMind não se deixa abalar pela concorrência

A mais recente inovação surge num momento em que a DeepMind pretende consolidar a sua posição dominante no setor. No início deste ano, a ElevenLabs, empresa britânica de geração de voz por IA, alcançou um marco importante após a sua ronda de financiamento Série B ter angariado 80 milhões de dólares, avaliando a empresa em mais de mil milhões de dólares, de acordo com a Verdict.

A empresa afirma que seus usuários geraram mais de 100 anos de áudio. Ela também alega que seu software de áudio é atualmente usado por 41% das empresas da lista Fortune 500.

Leia também: Google DeepMind vs. OpenAI: A corrida na geração de vídeos com IA esquenta

Apesar dessa competição, a DeepMind indicou que não tem pressa em disponibilizar a tecnologia ao público.

“Antes de considerarmos abrir o acesso ao público em geral, nossa tecnologia V2A passará por rigorosas avaliações e testes de segurança”, afirmou a empresa.

A DeepMind também indicou que o V2A pode ser integrado a modelos de geração de vídeo como o Veo, o que ajuda a criar efeitos sonoros realistas.

Reportagem Cryptopolitan de Enacy Mapakame

Não se limite a ler notícias sobre criptomoedas. Compreenda-as. Assine nossa newsletter. É grátis.

DeepMind ElevenLabs Google

Compartilhe este artigo

Aviso Legal. As informações fornecidas não constituem aconselhamento de investimento. CryptopolitanO não se responsabiliza por quaisquer investimentos realizados com base nas informações fornecidas nesta página. Recomendamostrona realização de pesquisas independentesdent /ou a consulta a um profissional qualificado antes de tomar qualquer decisão de investimento.

Enacy Mapakame

Enacy Mapakame é jornalista com mais de 10 anos de experiência em notícias de negócios e finanças. Ela cobre mercados de capitais e tecnologias emergentes – o metaverso, IA e criptomoedas. Enacy é formada em Estudos de Mídia e Sociedade (BSc) com honras.

ÍNDICE

1. O V2A sincroniza o áudio com as cenas de vídeo

2. DeepMind não se deixa abalar pela concorrência

Compartilhe este artigo