Google DeepMind、AI動画の音声を作成するV2Aを開発

読了時間2分 2024年6月18日

V2A ツールを使用すると、あらゆるビデオ出力に対して無制限の数のサウンドtracを生成できます。.
DeepMind は、ツールが厳格な安全性評価を受けている間、時間をかけて V2A を一般に公開する予定です。.
V2A は Veo などのビデオ生成ツールと組み合わせることができ、サウンドを適切なシーンにmaticにマッチングします。.

GoogleのAI研究機関DeepMindは、AIが生成した動画の音声とセリフを作成できる「V2A」と呼ばれるAIツールの開発に取り組んでいることを明らかにしました。V2Aは「video-to-audio（ビデオ・トゥ・オーディオ）」の略で、テキストベースのプロンプトと動画ピクセルを用いて、動画のセリフ、音楽、効果音を生成します。.

こちらもご覧ください: Google DeepMindがTacticAIを発表: サッカー戦術に革命を起こす

DeepMindによると、生成された効果音と音楽は、動画の意図されたトーンやキャラクターと一致しているとのこと。DeepMindはさらに、この技術はAI生成動画にさらなる活気を与えるのに役立つ可能性があると説明しています。.

V2Aはオーディオとビデオシーンを一致させます

オーディオ生成技術自体は目新しいものではないが、DeepMind は、同社の V2A ツールはオーディオとビデオをmaticにマッチングさせる初めてのツールであると主張している。.

「動画生成モデルは驚異的なスピードで進化しているが、現在のシステムの多くは無音の出力しか生成できない」とDeepMindはブログ記事。

「ビデオ、オーディオ、追加の注釈をトレーニングすることで、当社のテクノロジーは、注釈やトランスクリプトで提供される情報に応答しながら、特定のオーディオイベントをさまざまな視覚シーンに関連付けることを学習します。」

ディープマインド。.

同社は、あるmatic 音声、ビデオ、タイミングの調整を必要とする時間のかかる手動調整とは対照的に、その技術はと付け加えた。

DeepMindによると、V2Aツールは、あらゆるビデオ出力に対して無制限の数のサウンドtracを生成するために使用できます。肯定的なプロンプトは、「生成された出力を望ましいサウンドに導くようにdefiでき、否定的なプロンプトは望ましくないサウンドを避けるように定義できます。」

「この柔軟性により、ユーザーはV2Aの出力をより細かく制御できるようになり、さまざまなオーディオ出力を迅速に試して、最適なものを選択できるようになります」と同社は述べています。.

動画から音声への生成技術（V2A）の進捗状況をお知らせします。🎥

シーンの音響に合わせたサウンドや、画面上のアクションに合わせたサウンドを無音クリップに追加できます。.

ここに4つの例があります。音声をオンにしてください。🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62

— Google DeepMind (@GoogleDeepMind) 2024年6月17日