GoogleのAI研究機関DeepMindは、AIが生成した動画の音声とセリフを作成できる「V2A」と呼ばれるAIツールの開発に取り組んでいることを明らかにしました。V2Aは「video-to-audio(ビデオ・トゥ・オーディオ)」の略で、テキストベースのプロンプトと動画ピクセルを用いて、動画のセリフ、音楽、効果音を生成します。.
こちらもご覧ください: Google DeepMindがTacticAIを発表: サッカー戦術に革命を起こす
DeepMindによると、生成された効果音と音楽は、動画の意図されたトーンやキャラクターと一致しているとのこと。DeepMindはさらに、この技術はAI生成動画にさらなる活気を与えるのに役立つ可能性があると説明しています。.
V2Aはオーディオとビデオシーンを一致させます
オーディオ生成技術自体は目新しいものではないが、DeepMind は、同社の V2A ツールはオーディオとビデオをmaticにマッチングさせる初めてのツールであると主張している。.
「ビデオ生成モデルは驚くべき速さで進歩しているが、現在のシステムの多くは無音の出力しか生成できない」とDeepMindはブログ記事。
「ビデオ、オーディオ、追加の注釈をトレーニングすることで、当社のテクノロジーは、注釈やトランスクリプトで提供される情報に応答しながら、特定のオーディオイベントをさまざまな視覚シーンに関連付けることを学習します。」
ディープマインド。.
同社は、音声、ビデオ、タイミングの調整を必要とする時間のかかる手動調整とは対照的に、その技術はmaticある
DeepMindによると、V2Aツールは、あらゆるビデオ出力に対して無制限の数のサウンドtracを生成するために使用できます。肯定的なプロンプトは、「生成された出力を望ましいサウンドに導くようにdefiでき、否定的なプロンプトは望ましくないサウンドを避けるように定義できます。」
「この柔軟性により、ユーザーはV2Aの出力をより細かく制御できるようになり、さまざまなオーディオ出力を迅速に試して、最適なものを選択できるようになります」と同社は述べています。.
ビデオからオーディオ (V2A) を生成する技術の進捗状況を共有します。🎥
シーンの音響に合わせたサウンドや、画面上のアクションに合わせたサウンドを無音クリップに追加できます。.
ここに4つの例があります。サウンドをオンにしてください。🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
— Google DeepMind (@GoogleDeepMind) 2024年6月17日
ディープマインドは競争に動じない
この最新のイノベーションは、ディープマインドが業界における優位性を強化しようとしている中で実現しました。今年初め、英国のAI音声生成企業ElevenLabsは、シリーズBの資金調達ラウンドで8,000万ドルを調達し、企業価値が10億ドルを超え、画期的な成果を達成しました( Verdict誌)。
同社によると、ユーザーは100年以上分の音声を生成してきたという。また、同社のオーディオソフトウェアは現在、フォーチュン500企業の41%で使用されているとも主張している。.
こちらもご覧ください: Google DeepMind vs. OpenAI: AIビデオ生成の競争が激化
この競争にもかかわらず、DeepMind は、この技術を急いで一般に公開するつもりはないと示唆しています。.
「より広く一般へのアクセスを開始する前に、当社のV2A技術は厳格な安全性評価とテストを受けることになります」と同社は述べた。.
Veoなどのビデオ生成モデルと組み合わせることができ、リアルなサウンド効果の作成に役立つことも示しました。
Enacy MapakameによるCryptopolitan レポート

