DeepMind, le laboratoire de recherche en intelligence artificielle de Google, a révélé travailler sur un outil d'IA nommé V2A, capable de créer du son et des dialogues pour les vidéos générées par l'IA. V2A (Video-to-Audio) utilise des instructions textuelles et des pixels vidéo pour générer des dialogues, de la musique et des effets sonores pour les vidéos.
À lire également : Google DeepMind présente TacticAI : une révolution dans le monde du football
D'après DeepMind, les effets sonores et la musique générés correspondent à l'ambiance et aux personnages de la vidéo. DeepMind explique également que cette technologie pourrait contribuer à donner plus de vie aux vidéos générées par l'IA.
V2A associe l'audio aux scènes vidéo
Bien que la technologie de génération audio ne soit pas nouvelle, DeepMind affirme que son outil V2A est le premier du genre, car il associematicl'audio à la vidéo.
« Les modèles de génération vidéo progressent à un rythme incroyable, mais de nombreux systèmes actuels ne peuvent générer qu’une sortie silencieuse », a écrit DeepMind dans un article de blog .
« Grâce à l’entraînement sur la vidéo, l’audio et les annotations supplémentaires, notre technologie apprend à associer des événements audio spécifiques à diverses scènes visuelles, tout en répondant aux informations fournies dans les annotations ou les transcriptions. »
DeepMind.
L'entreprise a ajouté que sa technologie est automatique matic contrairement à l'alignement manuel fastidieux qui nécessite le réglage des sons, des vidéos et des synchronisations.
Selon DeepMind, l'outil V2A permet de générer un nombre illimité detracaudio pour n'importe quelle sortie vidéo. Une consigne positive peut êtredefipour orienter la sortie générée vers les sons souhaités, ou une consigne négative pour l'éloigner des sons indésirables
« Cette flexibilité offre aux utilisateurs un meilleur contrôle sur la sortie du V2A, ce qui leur permet d'expérimenter rapidement différentes sorties audio et de choisir celle qui leur convient le mieux », a déclaré la société.
Nous partageons les progrès réalisés dans le développement de notre technologie générative de conversion vidéo-audio (V2A). 🎥
Il peut ajouter du son à des clips muets en fonction de l'acoustique de la scène, accompagner l'action à l'écran, et bien plus encore.
Voici 4 exemples – activez le son. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
— Google DeepMind (@GoogleDeepMind) 17 juin 2024
DeepMind reste insensible à la concurrence
Cette innovation intervient alors que DeepMind souhaite consolider sa position dominante dans le secteur. Plus tôt cette année, la société britannique ElevenLabs, spécialisée dans les générateurs vocaux par IA, a franchi une étape importante : sa levée de fonds de série B a permis de récolter 80 millions de dollars, valorisant ainsi l’entreprise à plus d’un milliard de dollars, selon Verdict .
L'entreprise affirme que ses utilisateurs ont généré plus de 100 ans d'enregistrement audio. Elle prétend également que son logiciel audio est actuellement utilisé par 41 % des entreprises du classement Fortune 500.
À lire également : Google DeepMind contre OpenAI : la course à la génération vidéo par IA s’intensifie
Malgré cette concurrence, DeepMind a indiqué qu'elle n'était pas pressée de rendre cette technologie publique.
« Avant d’envisager d’ouvrir l’accès au grand public, notre technologie V2A fera l’objet d’évaluations et de tests de sécurité rigoureux », a déclaré l’entreprise.
DeepMind a également indiqué que V2A est compatible avec des modèles de génération vidéo comme Veo , ce qui contribue à créer des effets sonores réalistes.
Reportage Cryptopolitan par Enacy Mapakame

