DeepMind, Googles KI-Forschungslabor, hat bekannt gegeben, dass es an einem KI-Tool namens V2A arbeitet, das Ton und Dialoge für KI-generierte Videos erzeugen kann. V2A (Video-zu-Audio) nutzt textbasierte Anweisungen und Videopixel, um Dialoge, Musik und Soundeffekte für Videos zu generieren.
Lesen Sie auch: Google DeepMind stellt TacticAI vor: Revolutionierung der Fußballtaktik
Laut DeepMind passen die generierten Soundeffekte und die Musik zum beabsichtigten Ton und den Charakteren des Videos. DeepMind erklärte weiter, dass die Technologie dazu beitragen könne, KI-generierte Videos lebendiger zu gestalten.
V2A gleicht Audio- und Videoszenen ab
Während die Technologie zur Audioerzeugung nichts Neues ist, behauptet DeepMind, dass sein V2A-Tool das erste seiner Art sei, das Audio und Videomaticsynchronisiert.
„Die Modelle zur Videogenerierung entwickeln sich in einem unglaublichen Tempo, aber viele der derzeitigen Systeme können nur stumme Ausgaben erzeugen“, schrieb DeepMind in einem Blogbeitrag .
„Durch das Training mit Video, Audio und den zusätzlichen Anmerkungen lernt unsere Technologie, bestimmte Audioereignisse mit verschiedenen visuellen Szenen zu verknüpfen und dabei auf die in den Anmerkungen oder Transkripten enthaltenen Informationen zu reagieren.“
DeepMind.
Das Unternehmen fügte hinzu, dass seine Technologie automatisch matic im Gegensatz zu einer zeitaufwändigen manuellen Ausrichtung, bei der Töne, Videos und Zeitpunkte angepasst werden müssten.
Laut DeepMind kann das V2A-Tool verwendet werden, um eine unbegrenzte Anzahl vontracfür jede Videoausgabe zu generieren. Eine positive Vorgabe kanndefiwerden, um die generierte Ausgabe in Richtung gewünschter Töne zu lenken, oder eine negative Vorgabe, um sie von unerwünschten Tönen wegzulenken
„Diese Flexibilität gibt den Nutzern mehr Kontrolle über die Ausgabe des V2A und ermöglicht es ihnen, schnell mit verschiedenen Audioausgängen zu experimentieren und die beste Übereinstimmung auszuwählen“, so das Unternehmen.
Wir berichten über die Fortschritte unserer Video-zu-Audio-Technologie (V2A). 🎥
Es kann stummen Clips Ton hinzufügen, der zur Akustik der Szene passt, das Geschehen auf dem Bildschirm begleiten und vieles mehr.
Hier sind 4 Beispiele – Ton an! 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
— Google DeepMind (@GoogleDeepMind) 17. Juni 2024
Deepmind lässt sich von der Konkurrenz nicht beeindrucken
Verdict brachte die Serie-B-Finanzierungsrunde 80 Millionen US-Dollar ein und bewertete das Unternehmen mit über einer Milliarde US-Dollar .
Das Unternehmen gibt an, dass seine Nutzer über 100 Jahre Audiomaterial generiert haben. Es behauptet außerdem, dass seine Audio-Software derzeit von 41 % der Fortune-500-Unternehmen genutzt wird.
Lesen Sie auch: Google DeepMind vs. OpenAI: Das Rennen um die KI-Videogenerierung spitzt sich zu
Trotz dieser Konkurrenz hat DeepMind signalisiert, dass sie es nicht eilig haben, die Technologie der Öffentlichkeit zugänglich zu machen.
„Bevor wir den Zugang für die breite Öffentlichkeit ermöglichen, wird unsere V2A-Technologie strengen Sicherheitsbewertungen und Tests unterzogen“, so das Unternehmen.
DeepMind wies außerdem darauf hin, dass V2A mit Videogenerierungsmodellen wie Veo , was zur Erzeugung realistischer Soundeffekte beiträgt.
Cryptopolitan Berichterstattung von Enacy Mapakame

