Microsoft は最近のホワイトペーパーで、静止写真と音声サンプルをアップロードするだけで、見た目も音もリアルなトーキングヘッドを生成する新しい AI モデルを導入しました。
新しいモデルは VASA-1 と名付けられ、ポートレート スタイルの写真 1 枚と音声のオーディオ ファイルのみが必要で、それらを融合して顔の表情、口パク、頭の動きを含むトーキング ヘッドの短いビデオを作成します。 制作されたヘッドは歌を歌うこともでき、それは作成時にアップロードされた音声です。
Microsoft VASA-1 はアニメーションの画期的な進歩です
Microsoft によると、新しい AI モデルはまだ研究段階にあり、一般公開する予定はなく、Microsoft の研究者のみがアクセスできるとのことです。 しかし、同社はデモンストレーションのかなりの数のサンプルを共有しており、驚くほどのリアリズムとあまりにも本物のように見える唇の動きを示しています。
デモでは、あたかもカメラの前に座って撮影されているかのように、本物に見える人々が表示されます。 頭の動きはリアルで非常に自然に見え、オーディオに合わせた唇の動きは非常に際立っていますが、不自然である点はほとんどありません。 全体的な口の同期は驚異的です。
Microsoftは、このモデルは仮想キャラクターをアニメーション化するために開発されたものであり、デモに表示されている人物はすべて合成であり、モデルはOpenAIの画像ジェネレーターであるDALL-Eから生成されたものであると主張した。 したがって、AI で生成されたモデルをアニメーション化できるのであれば、実際の人物の写真をアニメーション化できる可能性が明らかに大きくなり、より現実的で扱いやすくなるはずだと私たちは考えています。
Vasa-1 の使用例とその潜在的な悪用
VASA-1 の実用化の可能性を見ると、基本的にはアニメーション映画のキャラクターをアニメーション化するために使用でき、自然な顔の表情や頭の動きでキャラクターにより現実的な雰囲気を与えることができます。 まったく同じ理由で、グランド・セフト・オートなどのビデオゲームにも使用できる可能性があります。 将来的には、キャラクターを画像ジェネレーターから生成し、VASA-1 でアニメーション化できる超現実的な AI 生成の映画やシリーズに使用される可能性があり、観客はキャラクターが人間ではないとさえ感じなくなるかもしれません。
このツールを創造的に使用するだけでなく、悪意のある目的のコンテンツの作成にも利用される可能性があります。 VASA-1 の潜在的な悪用は、ディープフェイクへの利用である可能性があります。これにより、ディープフェイクの作成に関与する人は誰でも、悪い戦術を拡大し、より現実的な誤ったコンテンツを生成することが容易になります。 予備選挙前に国民に投票を控えるようバイデン氏が呼びかけたロボコールスキャンダルを覚えているだろうか。 今度は、ロボコール後のロボビデオ、そして非常にリアルな人間の表情を備えたロボビデオになる可能性があります。
悪用の潜在的なリスクが、Microsoft がテストを研究者のみに限定している理由である可能性があります。 Microsoftのらによると、このツールは他のツールと同様、人間になりすました誤解を招くコンテンツの作成に使用される可能性があるが、積極的な利用を目指しているという。 Nvidia と Runway AI も同じ機能のモデルをリリースしていますが、VASA-1 の方がはるかに現実的であり、有望な候補であると思われます。