AI 생태계

Upscale-A-Video는 실제 비디오 초해상도를 위한 새로운 AI 모델입니다

DobongLive 2023. 12. 17. 16:52

 

Upscale-A-Video의 핵심에는 비디오 처리의 고유한 요구에 맞게 맞춤화된 독창적인 텍스트 기반 잠재 확산 프레임워크가 있습니다.

 

싱가포르 난양기술대학교 연구진의 새로운 논문에서는 확산 모델의 생성 능력을 활용하여 비디오 업스케일링에 대한 혁신적인 접근 방식을 소개합니다. Upscale-A-Video라는 방법은 향상된 품질과 현실감으로 실제 동영상을 향상시키는 새로운 기준을 제시합니다.

 

 

 

 

Upscale-A-Video: 실제 비디오 초해상도를 위한 시간적 일관성 확산 모델

 

텍스트 기반 확산 모델은 생성 및 편집 분야에서 놀라운 성공을 거두었으며 생성적 사전 기능을 통해 시각적 콘텐츠를 향상시킬 수 있는 큰 가능성을 보여주었습니다.

그러나 출력 충실도와 시간적 일관성에 대한 높은 요구로 인해 이러한 모델을 비디오 초해상도에 적용하는 것은 여전히 ​​어려운 일이며, 이는 확산 모델의 고유한 무작위성으로 인해 복잡해집니다.

우리 연구에서는 비디오 업스케일링을 위한 텍스트 기반 잠재 확산 프레임워크인 Upscale-A-Video를 소개합니다.

이 프레임워크는 두 가지 주요 메커니즘을 통해 시간적 일관성을 보장합니다. 로컬에서는 시간 계층을 U-Net 및 VAE-Decoder에 통합하여 짧은 시퀀스 내에서 일관성을 유지합니다. 전 세계적으로 훈련 없이 전체 시퀀스에 걸쳐 잠재성을 전파하고 융합함으로써 전반적인 비디오 안정성을 향상시키기 위해 흐름 유도 반복 잠재성 전파 모듈이 도입되었습니다.

확산 패러다임 덕분에 우리 모델은 텍스처 생성을 안내하는 텍스트 프롬프트를 허용하고 복원과 생성의 균형을 맞추기 위해 조정 가능한 노이즈 수준을 허용하여 충실도와 품질 간의 균형을 가능하게 함으로써 더 큰 유연성을 제공합니다.

광범위한 실험을 통해 Upscale-A-Video는 합성 및 실제 벤치마크는 물론 AI 생성 비디오 모두에서 기존 방법을 능가하여 인상적인 시각적 사실성과 시간적 일관성을 보여주는 것으로 나타났습니다.

 

 

Upscale-A-Video의 핵심에는 비디오 처리의 고유한 요구에 맞게 맞춤화된 독창적인 텍스트 기반 잠재 확산 프레임워크가 있습니다. 이는 확산 모델의 고유한 무작위성에도 불구하고 충실도와 시간적 일관성을 모두 유지하는 이 영역에서 가장 어려운 과제 중 하나를 해결합니다.

 

연구자들은 지역-글로벌 시간적 전략을 통해 이를 달성합니다.

로컬에서 모델은 짧은 클립의 안정성을 유지하기 위해 특수한 시간 레이어를 사용하여 U-Net 및 VAE-Decoder를 미세 조정합니다. 전 세계적으로 여러 클립에 걸쳐 있는 긴 시퀀스의 일관성을 향상시키기 위해 훈련이 필요 없는 새로운 반복 전파 모듈이 도입되었습니다.

 

이 고급 접근 방식은 또한 비디오 업스케일링을 위한 뛰어난 유연성을 제공합니다.

사용자는 비디오 콘텐츠에 맞는 사실적인 디테일과 질감의 생성을 안내하는 텍스트 프롬프트를 제공할 수 있습니다.

또한 프레임워크를 사용하면 필요에 따라 복원과 생성 간의 균형을 맞추기 위해 확산 중에 소음 수준을 조정할 수 있습니다.

이러한 균형은 충실도와 업스케일된 비디오의 품질 사이에서 바람직한 균형을 이루는 데 중요합니다.

 

광범위한 실험을 통해 Upscale-A-Video가 합성 벤치마크와 실제 벤치마크 모두에서 최첨단 방법보다 훨씬 뛰어난 성능을 발휘한다는 사실이 입증되었습니다. AI 생성 비디오는 물론 합성 벤치마크와 실제 벤치마크 모두에서 지속적으로 기존 방법보다 뛰어난 성능을 발휘했습니다.

이러한 결과는 인상적인 시각적 사실성을 제공하고 시간적 일관성을 유지하는 데 있어 이 제품의 우수성을 강조합니다.

 

실제로 Upscale-A-Video는 가능성의 세계를 열어줍니다.

고품질 업스케일링이 요구되는 전문 비디오 편집 분야에서 획기적인 변화를 가져올 수 있습니다.

또한 사용자 제작 콘텐츠를 향상시키는 방식에 혁명을 일으켜 고품질 비디오 업스케일링에 더 쉽게 접근하고 사용자 친화적으로 만들 수 있습니다.