Google DeepMind développe V2A, un logiciel qui crée du son pour les vidéos d'IA

Par

Enacy Mapakame

2 minutes de lecture - 18 juin 2024

L'outil V2A peut être utilisé pour générer un nombre illimité detracaudio pour n'importe quelle sortie vidéo.
DeepMind prendra son temps avant de rendre V2A accessible au public, l'outil étant soumis à des évaluations de sécurité rigoureuses.
V2A est compatible avec des outils de génération vidéo comme Veo et adaptematicles sons aux scènes appropriées.

DeepMind, le laboratoire de recherche en intelligence artificielle de Google, a révélé travailler sur un outil d'IA nommé V2A, capable de créer du son et des dialogues pour les vidéos générées par l'IA. V2A (Video-to-Audio) utilise des instructions textuelles et des pixels vidéo pour générer des dialogues, de la musique et des effets sonores pour les vidéos.

D'après DeepMind, les effets sonores et la musique générés correspondent à l'ambiance et aux personnages de la vidéo. DeepMind explique également que cette technologie pourrait contribuer à donner plus de vie aux vidéos générées par l'IA.

V2A associe l'audio aux scènes vidéo

Bien que la technologie de génération audio ne soit pas nouvelle, DeepMind affirme que son outil V2A est le premier du genre, car il associematicl'audio à la vidéo.

« Les modèles de génération vidéo progressent à un rythme incroyable, mais de nombreux systèmes actuels ne peuvent générer qu’une sortie silencieuse », a écrit DeepMind dans un article de blog.

« Grâce à l’entraînement sur la vidéo, l’audio et les annotations supplémentaires, notre technologie apprend à associer des événements audio spécifiques à diverses scènes visuelles, tout en répondant aux informations fournies dans les annotations ou les transcriptions. »

DeepMind.

L'entreprise a ajouté que sa technologie est automatiquematic contrairement à l'alignement manuel fastidieux qui nécessite le réglage des sons, des vidéos et des synchronisations.

Selon DeepMind, l'outil V2A permet de générer un nombre illimité detracaudio pour n'importe quelle sortie vidéo. Une consigne positive peut êtredefipour orienter la sortie générée vers les sons souhaités, ou une consigne négative pour l'éloigner des sons indésirables

« Cette flexibilité offre aux utilisateurs un meilleur contrôle sur la sortie du V2A, ce qui leur permet d'expérimenter rapidement différentes sorties audio et de choisir celle qui leur convient le mieux », a déclaré la société.

Nous partageons les progrès réalisés dans le développement de notre technologie générative de conversion vidéo-audio (V2A). 🎥

Il peut ajouter du son à des clips muets en fonction de l'acoustique de la scène, accompagner l'action à l'écran, et bien plus encore.

Voici 4 exemples – activez le son. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62

— Google DeepMind (@GoogleDeepMind) 17 juin 2024

DeepMind reste insensible à la concurrence

Cette innovation intervient alors que DeepMind souhaite consolider sa position dominante dans le secteur. Plus tôt cette année, la société britannique ElevenLabs, spécialisée dans les générateurs vocaux par IA, a franchi une étape importante : sa levée de fonds de série B a permis de récolter 80 millions de dollars, valorisant ainsi l’entreprise à plus d’un milliard de dollars, selon Verdict.

L'entreprise affirme que ses utilisateurs ont généré plus de 100 ans d'enregistrement audio. Elle prétend également que son logiciel audio est actuellement utilisé par 41 % des entreprises du classement Fortune 500.

À lire également : Google DeepMind contre OpenAI : la course à la génération vidéo par IA s’intensifie

Malgré cette concurrence, DeepMind a indiqué qu'elle n'était pas pressée de rendre cette technologie publique.

« Avant d’envisager d’ouvrir l’accès au grand public, notre technologie V2A fera l’objet d’évaluations et de tests de sécurité rigoureux », a déclaré l’entreprise.

DeepMind a également indiqué que V2A est compatible avec des modèles de génération vidéo comme Veo, ce qui contribue à créer des effets sonores réalistes.

Reportage Cryptopolitan par Enacy Mapakame

Si vous lisez ceci, vous avez déjà une longueur d'avance. Restez-y grâce à notre newsletter.

DeepMind ElevenLabs Google

Partagez cet article

Avertissement : Les informations fournies ne constituent pas un conseil en investissement. CryptopolitanCryptopolitan.com toute responsabilité quant aux investissements réalisés sur la base des informations présentées sur cette page. Nous voustronrecommandons vivement d’effectuer vosdent et/ou de consulter un professionnel qualifié avant toute décision d’investissement.

Enacy Mapakame

Enacy Mapakame est une journaliste forte de plus de dix ans d'expérience dans l'actualité économique et financière. Elle couvre les marchés de capitaux et les technologies émergentes, notamment le métavers, l'intelligence artificielle et les cryptomonnaies. Enacy est titulaire d'une licence en études des médias et de la société (avec mention).

TABLE DES MATIÈRES

1. V2A associe l'audio aux scènes vidéo

2. DeepMind reste insensible à la concurrence

Partagez cet article