NEUESTE NACHRICHTEN
FÜR SIE AUSGEWÄHLT
WÖCHENTLICH
BLEIBEN SIE AN DER SPITZE

Die besten Krypto-Einblicke direkt in Ihren Posteingang.

Microsofts VASA-1 kann aus nur einem Bild realistische sprechende Gesichter erzeugen

VonAamir SheikhAamir Sheikh
3 Minuten Lesezeit
Vasa-1
  • In einer Forschungsarbeit von Microsoft wurde ein Forschungsprojekt zur Generierung von sprechenden Köpfen vorgestellt.
  • Das neue KI-Modell kann ein sprechendes Gesicht oder einen Kopf generieren, indem es ein einzelnes Foto und eine Sprachnachricht hochlädt.
  • Das animierte Gesicht verfügt über realistische Gesichtsausdrücke und Lippenbewegungen, die zur Stimme und zu den Kopfbewegungen im realen Leben passen.

In einem kürzlich erschienenen Whitepaper stellte Microsoft ein neues KI-Modell vor, das einen sprechenden Kopf erzeugt, der realistisch aussieht und klingt und durch das lediglich ein Standbild und eine Sprachprobe hochgeladen werden müssen.

Das neue Modell heißt VASA-1 und benötigt lediglich ein Foto im Hochformat und eine Sprachdatei. Diese werden zu einem kurzen Video eines sprechenden Kopfes mit Mimik, Lippensynchronisation und Kopfbewegungen zusammengefügt. Der so entstandene Kopf kann sogar Lieder singen – und zwar mit der Stimme, die bei der Erstellung hochgeladen wurde.

Microsoft VASA-1 ist ein Durchbruch für die Animation

Laut Microsoft befindet sich das neue KI-Modell noch in der Forschungsphase und soll derzeit nicht öffentlich zugänglich gemacht werden. Nur Microsoft-Forscher haben Zugriff darauf. Das Unternehmen hat jedoch bereits einige Demonstrationsbeispiele veröffentlicht, die einen verblüffenden Realismus und täuschend echt wirkende Lippenbewegungen zeigen.

Quelle: Microsoft.

Die Demo zeigt Personen, die absolut authentisch wirken, als säßen sie direkt vor der Kamera und würden gefilmt. Die Kopfbewegungen sind realistisch und wirken sehr natürlich, und die Lippenbewegungen, die perfekt zum Ton passen, sind herausragend – es gibt kaum etwas, was unnatürlich wirkt. Die gesamte Mundsynchronisation ist phänomenal.

Microsoft gab an, das Modell sei zur Animation virtueller Charaktere entwickelt worden und behauptete, alle in der Demo gezeigten Personen seien synthetisch. Die Modelle seien mit DALL-E, dem Bildgenerator von OpenAI, erstellt worden. Wenn es also ein KI-generiertes Modell animieren kann, liegt offensichtlich ein viel größeres Potenzial darin, Fotos von realen Personen zu animieren. Dies dürfte realistischer und deutlich einfacher zu handhaben sein.

Anwendungsfälle von Vasa-1 und dessen potenzieller Missbrauch

Quelle: Microsoft.

Betrachtet man das Potenzial von VASA-1 für praktische Anwendungen, so kann es zunächst zur Animation von Charakteren in Animationsfilmen eingesetzt werden. Dadurch wirken die Figuren realistischer, mit natürlichen Gesichtsausdrücken und Kopfbewegungen. Auch in Videospielen, wie beispielsweise Grand Theft Auto, bietet sich eine Anwendung an. Zukünftig könnte VASA-1 für hyperrealistische, KI-generierte Filme oder Serien genutzt werden, in denen die Charaktere mithilfe von Bildgeneratoren erstellt und von VASA-1 animiert werden. Das Publikum würde dann möglicherweise gar nicht mehr bemerken, dass es sich nicht um Menschen handelt.

Neben der kreativen Nutzung des Tools besteht auch die Möglichkeit, es für schädliche Zwecke einzusetzen. Ein potenzieller Missbrauch von VASA-1 liegt in der Verwendung für Deepfakes, da es die Erstellung von Deepfakes erleichtert und es allen Beteiligten ermöglicht, ihre schädlichen Methoden auszuweiten und realistischere, irreführende Inhalte zu generieren. Erinnern Sie sich an den Skandal um die automatisierten Anrufe mit Bidens Stimme, die Menschen vor den Vorwahlen von der Stimmabgabe abhalten sollten? Nun könnte im Anschluss an diesen Anruf ein automatisiertes Video mit täuschend echt wirkenden Gesichtsausdrücken auftauchen.

Das potenzielle Missbrauchsrisiko dürfte der Grund dafür sein, dass Microsoft die Tests auf eigene Forscher beschränkt hat. Laut Microsoft- Forschern kann das Tool, wie einige andere auch, zur Erstellung irreführender und täuschender Inhalte verwendet werden, um sich als Menschen auszugeben. Microsoft strebt jedoch positive Anwendungsbereiche an. Nvidia und Runway AI haben ebenfalls Modelle für dieselbe Funktion veröffentlicht, doch VASA-1 erscheint deutlich realistischer und vielversprechender. 

Die klügsten Köpfe der Krypto-Szene lesen bereits unseren Newsletter. Möchten Sie auch dabei sein? Dann schließen Sie sich ihnen an.

Diesen Artikel teilen

Haftungsausschluss: Die bereitgestellten Informationen stellen keine Anlageberatung dar. Cryptopolitanübernimmt keine Haftung für Investitionen, die auf Grundlage der Informationen auf dieser Seite getätigt werden. Wirtronempfehlen dringend, vor jeder Anlageentscheidung eigene Recherchen durchzuführendent /oder einen qualifizierten Fachmann zu konsultieren

Aamir Sheikh

Aamir Sheikh

Aamir ist Technologiejournalist mit fast sechs Jahren Erfahrung in der Krypto- und Technologiebranche. Er absolvierte die MAJ University mit einem MBA in Finanzen und Marketing. Derzeit arbeitet er für Cryptopolitan, wo er über die neuesten Entwicklungen auf den Kryptowährungsmärkten und Preisprognosen berichtet.

MEHR … NACHRICHTEN
DEEP CRYPTO
CRASH-KURS