O DeepMind, laboratório de pesquisa em IA do Google, revelou que está trabalhando em uma ferramenta de IA chamada V2A, capaz de criar som e diálogos para vídeos gerados por IA. O V2A, sigla para "vídeo para áudio", utiliza instruções em texto e pixels de vídeo para gerar diálogos, música e efeitos sonoros para vídeos.
Leia também: Google DeepMind apresenta o TacticAI: revolucionando as táticas do futebol
Segundo a DeepMind, os efeitos sonoros e a música gerados correspondem ao tom e aos personagens pretendidos para o vídeo. A DeepMind explicou ainda que a tecnologia pode ajudar a dar mais vida aos vídeos gerados por IA.
O V2A sincroniza o áudio com as cenas de vídeo
Embora a tecnologia de geração de áudio não seja novidade, a DeepMind afirma que sua ferramenta V2A é a primeira do gênero, capaz de combinarmaticáudio e vídeo.
“Os modelos de geração de vídeo estão avançando em um ritmo incrível, mas muitos sistemas atuais só conseguem gerar saída silenciosa”, escreveu a DeepMind em uma postagem no blog .
“Ao treinar com vídeo, áudio e anotações adicionais, nossa tecnologia aprende a associar eventos de áudio específicos a várias cenas visuais, enquanto responde às informações fornecidas nas anotações ou transcrições.”
DeepMind.
A empresa acrescentou que sua tecnologia é automática matic ao contrário do alinhamento manual demorado que exige o ajuste de sons, vídeos e tempos.
Segundo a DeepMind, a ferramenta V2A pode ser usada para gerar um número ilimitado detracsonoras para qualquer saída de vídeo. Um comando positivo pode serdefipara direcionar a saída gerada para os sons desejados, ou um comando negativo para afastá-la dos sons indesejados
“Essa flexibilidade oferece aos usuários mais controle sobre a saída do V2A, possibilitando experimentar rapidamente diferentes saídas de áudio e escolher a que melhor se adapta”, afirmou a empresa.
Estamos compartilhando o progresso da nossa tecnologia generativa de vídeo para áudio (V2A). 🎥
Ele pode adicionar som a clipes silenciosos que combinem com a acústica da cena, acompanhar a ação na tela e muito mais.
Aqui estão 4 exemplos – ligue o som. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
— Google DeepMind (@GoogleDeepMind) 17 de junho de 2024
DeepMind não se deixa abalar pela concorrência
A mais recente inovação surge num momento em que a DeepMind pretende consolidar a sua posição dominante no setor. No início deste ano, a ElevenLabs, empresa britânica de geração de voz por IA, alcançou um marco importante após a sua ronda de financiamento Série B ter angariado 80 milhões de dólares, avaliando a empresa em mais de mil milhões de dólares, de acordo com a Verdict .
A empresa afirma que seus usuários geraram mais de 100 anos de áudio. Ela também alega que seu software de áudio é atualmente usado por 41% das empresas da lista Fortune 500.
Leia também: Google DeepMind vs. OpenAI: A corrida na geração de vídeos com IA esquenta
Apesar dessa competição, a DeepMind indicou que não tem pressa em disponibilizar a tecnologia ao público.
“Antes de considerarmos abrir o acesso ao público em geral, nossa tecnologia V2A passará por rigorosas avaliações e testes de segurança”, afirmou a empresa.
A DeepMind também indicou que o V2A pode ser integrado a modelos de geração de vídeo como o Veo , o que ajuda a criar efeitos sonoros realistas.
Reportagem Cryptopolitan de Enacy Mapakame

