스테이블 디퓨전

Stable Video Diffusion 소개

DobongLive 2023. 11. 22. 20:36

 

오늘은 이미지 모델인 Stable Diffusion을 기반으로 한 생성 영상의 첫 번째 기반 모델인 Stable Video Diffusion을 공개합니다. 

이제 연구 프리뷰에서 사용할 수 있는 이 최첨단 생성 AI 비디오 모델은 모든 유형의 모든 사람을 위한 모델을 만들기 위한 여정의 중요한 단계를 나타냅니다.

이 연구 릴리스를 통해 GitHub 저장소에서 안정적인 비디오 확산을 위한 코드를 사용할 수 있게 되었으며 모델을 로컬로 실행하는 데 필요한 가중치는 포옹 페이스 페이지에서 확인할 수 있습니다. 모델의 기술적 능력에 관한 자세한 내용은 연구 논문에서 확인할 수 있습니다.

 

 

 

 

 

SVD(Stable Video Diffusion) 이미지-비디오는 정지 이미지를 조건 프레임으로 가져와서 비디오를 생성하는 확산 모델입니다.

 

모델 설명
(SVD) 이미지-비디오(Image-to-Video)는 이미지 컨디셔닝을 통해 짧은 비디오 클립을 생성하도록 훈련된 잠재 확산 모델입니다. 

이 모델은 동일한 크기의 컨텍스트 프레임이 주어지면 576x1024 해상도에서 14개의 프레임을 생성하도록 학습되었습니다.

또한 시간적 일관성을 위해 널리 사용되는 f8 디코더를 미세 조정합니다.

편의를 위해 여기에서는 모델에 표준 프레임별 디코더를 추가로 제공합니다.

 

 

 

 

 

다양한 비디오 애플리케이션에 적합

우리의 비디오 모델은 멀티뷰 데이터 세트에서 미세 조정을 통해 단일 이미지에서 멀티뷰 합성을 포함하여 다양한 다운스트림 작업에 쉽게 적응할 수 있습니다. 안정적인 확산을 중심으로 구축된 생태계와 유사하게 이 기반을 구축하고 확장하는 다양한 모델을 계획하고 있습니다.

 

미세 조정 비디오 모델의 멀티뷰 세대 샘플

또한, 오늘 여기에서 텍스트-비디오 인터페이스가 포함된 새로운 웹 경험에 액세스하기 위해 대기 목록에 등록할 수 있습니다. 이 도구는 광고, 교육, 엔터테인먼트 등 다양한 분야에서 안정적인 비디오 확산의 실제적인 응용 사례를 보여줍니다.

 

 

 

 

 

 

경쟁력 있는 성능

Stable Video Diffusion은 2개의 이미지-투-비디오 모델 형태로 출시되며 초당 3~30프레임 사이의 맞춤형 프레임 속도로 14프레임과 25프레임을 생성할 수 있습니다. 기본 형태로 출시 당시 외부 평가를 통해 이 모델들이 사용자 선호도 연구에서 선두적인 폐쇄형 모델을 능가한다는 것을 발견했습니다.

 

 

 

 

 

연구 전용

우리는 모델을 최신 첨단 기술로 열심히 업데이트하고 귀하의 피드백을 통합하기 위해 노력하지만, 이 모델은 현 단계에서 실제 또는 상업용 애플리케이션을 위한 것이 아님을 강조합니다. 안전과 품질에 대한 귀하의 통찰력과 피드백은 궁극적인 출시를 위해 이 모델을 개선하는 데 중요합니다. 

이것은 새로운 양식의 이전 릴리스와 일치하며 전체 릴리스를 여러분과 공유하기를 기대합니다. 

지속적으로 확장되는 AI 모델 제품군

안정적인 비디오 확산은 다양한 오픈 소스 모델에 자랑스럽게 추가된 것입니다. 이미지, 언어, 오디오, 3D 및 코드를 포함한 양식에 걸쳐 있는 우리의 포트폴리오는 인간 지능을 증폭시키기 위한 Stability AI의 헌신을 보여줍니다.