구글 딥마인드는 AI 영상에 소리를 생성하는 V2A를 개발했습니다

에나

시 마파카메 지음

읽는 데 2분 소요 , 2024년 6월 18일

V2A 도구를 사용하면 모든 비디오 출력에 대해 무제한의 사운드trac을 생성할 수 있습니다.
DeepMind는 V2A 도구가 엄격한 안전성 평가를 거치는 동안 시간을 두고 일반에 공개할 예정입니다.
V2A는 Veo와 같은 비디오 생성 도구와 연동하여 소리를 적절한 장면에matic으로 매칭합니다.

구글의 AI 연구소인 딥마인드는 AI가 생성한 영상에 소리와 대화를 삽입할 수 있는 V2A라는 AI 도구를 개발 중이라고 밝혔습니다. V2A(Video-to-Audio)는 텍스트 기반 프롬프트와 비디오 픽셀을 사용하여 영상에 대화, 음악, 음향 효과를 생성합니다.

딥마인드에 따르면, 생성된 음향 효과와 음악은 영상의 의도된 분위기와 캐릭터에 잘 어울립니다. 딥마인드는 또한 이 기술이 AI가 생성한 영상에 생동감을 불어넣는 데 도움이 될 수 있다고 설명했습니다.

V2A는 오디오를 비디오 장면에 맞춰줍니다

오디오 생성 기술 자체는 새로운 것이 아니지만, DeepMind는 자사의 V2A 도구가 오디오와 비디오를matic으로 매칭하는 최초의 도구라고 주장합니다.

딥마인드는 블로그 게시물 에서 "비디오 생성 모델은 놀라운 속도로 발전하고 있지만, 현재 많은 시스템은 소리가 없는 출력물만 생성할 수 있다"고 밝혔습니다 .

"비디오, 오디오 및 추가 주석을 학습함으로써 당사 기술은 특정 오디오 이벤트를 다양한 시각적 장면과 연결하는 방법을 배우는 동시에 주석이나 녹취록에 제공된 정보에 반응합니다."

딥마인드.

회사 측은 자사 기술이 자동matic 소리, 영상, 타이밍을 조정해야 하는 시간 소모적인 수동 정렬 방식과는 달리

딥마인드에 따르면 V2A 도구는 모든 비디오 출력에 대해 무제한의 사운드trac을 생성하는 데 사용할 수 있습니다. 긍정적인 프롬프트는 생성된 출력이 원하는 소리로 향하도록defi하고, 부정적인 프롬프트는 원치 않는 소리에서 멀어지도록 유도할 수 있습니다

"이러한 유연성을 통해 사용자는 V2A의 출력에 대한 제어권을 더욱 강화할 수 있으며, 다양한 오디오 출력을 빠르게 실험하고 최적의 출력을 선택할 수 있습니다."라고 회사 측은 밝혔습니다.

저희의 비디오-오디오(V2A) 생성 기술 개발 진행 상황을 공유합니다. 🎥

이 기능은 장면의 음향과 일치하는 소리를 무음 클립에 추가하거나, 화면상의 동작에 맞춰 소리를 삽입하는 등 다양한 용도로 사용할 수 있습니다.

다음은 4가지 예시입니다. 소리를 켜고 들어보세요. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62

— 구글 딥마인드 (@GoogleDeepMind) 2024년 6월 17일