Microsofts VASA-1 kann aus nur einem Bild realistische sprechende Gesichter generieren

By Aamir Sheikh
19. April 2024

2 Minuten gelesen

Inhalt

1. Microsoft VASA-1 ist ein Durchbruch für Animationen

2. Anwendungsfälle von Vasa-1 und sein möglicher Missbrauch

Einen Link teilen:

TL;DR

In einem Forschungsbericht von Microsoft wurde ein Forschungsprojekt zur Generierung sprechender Köpfe vorgestellt.
Das neue KI-Modell kann durch das Hochladen eines einzelnen Fotos und einer Sprachnotiz ein sprechendes Gesicht oder einen sprechenden Kopf erzeugen.
Das animierte Gesicht verfügt über realistische Gesichtsausdrücke und Lippenbewegungen, um die Stimme mit echten Kopfbewegungen in Einklang zu bringen.

In einem aktuellen Whitepaper stellte Microsoft ein neues KI-Modell vor, das einen sprechenden Kopf erzeugt, der realistisch aussieht und klingt und nur durch das Hochladen eines Standbilds und einer Sprachprobe generiert wird.

Das neue Modell heißt VASA-1 und erfordert nur ein Porträtbild und eine Audiodatei mit Stimme und fügt diese zusammen, um ein kurzes Video eines sprechenden Kopfes mit Gesichtsausdrücken, Lippensynchronisation und Kopfbewegungen zu erstellen. Der produzierte Kopf kann sogar Lieder singen, und das mit der zum Zeitpunkt der Erstellung hochgeladenen Stimme.

Microsoft VASA-1 ist ein Durchbruch für Animationen

Laut Microsoft befindet sich das neue KI-Modell noch in der Forschungsphase, eine Veröffentlichung für die breite Öffentlichkeit ist noch nicht geplant und nur Microsoft-Forscher haben Zugriff darauf. Allerdings hat das Unternehmen einige Beispiele der Demonstrationen geteilt, die einen atemberaubenden Realismus und Lippenbewegungen zeigen, die zu lebensecht wirken.

Die Demo zeigt Menschen, die echt aussehen, als würden sie vor einer Kamera sitzen und gefilmt werden. Die Bewegungen der Köpfe sind realistisch und sehen ziemlich natürlich aus, und die Lippenbewegungen, die zum Ton passen, sind ganz hervorragend, vorausgesetzt, dass es kaum Anzeichen dafür gibt, dass sie nicht natürlich sind. Die allgemeine Mundsynchronisation ist phänomenal.

Microsoft sagte, das Modell sei zur Animation virtueller Charaktere entwickelt worden und behauptete, dass alle in der Demo gezeigten Personen synthetisch seien. Die Modelle seien aus DALL-E generiert worden, dem Bildgenerator von OpenAI. Wir glauben also, dass, wenn es ein KI-generiertes Modell animieren kann, es offensichtlich viel mehr Möglichkeiten gibt, Fotos von jeder realen Person zu animieren, was realistischer und viel einfacher zu handhaben sein dürfte.

Anwendungsfälle von Vasa-1 und sein möglicher Missbrauch

Wenn wir uns das Potenzial von VASA-1 für den praktischen Einsatz ansehen, dann kann es grundsätzlich zur Animation von Charakteren in Animationsfilmen verwendet werden, was den Charakteren ein realistischeres Gefühl mit natürlichen Gesichtsausdrücken und Kopfbewegungen verleiht. Eine andere Verwendung könnte aus dem gleichen Grund in Videospielen liegen, denken Sie an Grand Theft Auto und dergleichen. In Zukunft könnte es für hyperrealistische KI-generierte Filme oder Serien verwendet werden, in denen Charaktere von Bildgeneratoren generiert und von VASA-1 animiert werden könnten, und das Publikum könnte nicht einmal das Gefühl haben, dass die Charaktere keine Menschen sind.

Neben der kreativen Nutzung des Tools kann es auch zur Erstellung von Inhalten für böswillige Zwecke genutzt werden. Der potenzielle Missbrauch von VASA-1 könnte seine Verwendung für Deepfakes sein, da es jedem, der an Deepfake-Kreationen beteiligt ist, leichter wird, seine schlechten Taktiken zu verstärken und realistischere irreführende Inhalte zu generieren. Erinnern Sie sich an den Robocall-Skandal, bei dem es um Bidens Stimme ging, Menschen vor einer Vorwahl von der Stimmabgabe abzuhalten? Nun könnte es nach dem Robocall ein Robovideo werden, und das mit sehr realistischen menschlichen Gesichtsausdrücken.

Das potenzielle Risiko eines Missbrauchs ist möglicherweise der Grund dafür, dass Microsoft seine Tests nur auf seine Forscher beschränkt hat. Laut Microsoft- Forschern kann das Tool wie einige andere Tools zur Erstellung irreführender und täuschender Inhalte zur Nachahmung von Menschen verwendet werden, sie zielen jedoch auf Anwendungen mit positivem Nutzen ab. Auch Nvidia und Runway AI haben ihre Modelle für die gleiche Funktion veröffentlicht, VASA-1 scheint jedoch weitaus realistischer und ein vielversprechender Kandidat.

Das Forschungspapier kann hier , die Anmerkung hier.

Haftungsausschluss: Die bereitgestellten Informationen sind keine Handelsberatung. Cryptopolitan.com haftet nicht für Investitionen, die auf der Grundlage der auf dieser Seite bereitgestellten Informationen getätigt wurden. Wir empfehlen tron dent Recherche und/oder Beratung durch einen qualifizierten Fachmann, bevor Sie eine Anlageentscheidung treffen.

Microsofts VASA-1 kann aus nur einem Bild realistische sprechende Gesichter generieren

Inhalt

TL;DR

Microsoft VASA-1 ist ein Durchbruch für Animationen

Anwendungsfälle von Vasa-1 und sein möglicher Missbrauch

Einen Link teilen:

Aamir Scheich

Meist gelesen

Bleiben Sie über Krypto-Neuigkeiten auf dem Laufenden und erhalten Sie tägliche Updates in Ihrem Posteingang

Ähnliche Neuigkeiten

Wie technische Innovationen die Nachhaltigkeit in der Telekommunikationsbranche vorantreiben

Generative KI verändert die südafrikanische Geschäftslandschaft

Worldcoin strebt trotz regulatorischer Probleme Technologiepartnerschaften an

Reddit kann KI-Firmen verklagen, wenn geschäftliche Gespräche scheitern

Kryptopolitische Tageszeitung

Microsofts VASA-1 kann aus nur einem Bild realistische sprechende Gesichter generieren

Inhalt

TL;DR

Microsoft VASA-1 ist ein Durchbruch für Animationen

Anwendungsfälle von Vasa-1 und sein möglicher Missbrauch

Einen Link teilen:

Aamir Scheich

Meist gelesen

Bleiben Sie über Krypto-Neuigkeiten auf dem Laufenden und erhalten Sie tägliche Updates in Ihrem Posteingang

Ähnliche Neuigkeiten

Wie technische Innovationen die Nachhaltigkeit in der Telekommunikationsbranche vorantreiben

Generative KI verändert die südafrikanische Geschäftslandschaft

Worldcoin strebt trotz regulatorischer Probleme Technologiepartnerschaften an

Reddit kann KI-Firmen verklagen, wenn geschäftliche Gespräche scheitern

Kryptopolitische Tageszeitung

Folgen Sie uns