티스토리 뷰

 

MIT CSAIL 연구원들은 Stable Diffusion 및 DALLE-3과 같은 기존 모델의 품질을 유지하거나 능가하는 동시에 이미지 생성 프로세스를 대폭 가속화하는 획기적인 원스텝 AI 이미지 생성기를 개발했습니다. DMD(분포 매칭 증류)라고 불리는 그들의 방법은 교사-학생 모델을 활용하여 더 복잡한 시스템의 기능을 모방하여 전통적으로 다단계 확산 프로세스를 단일 단계로 단순화합니다. 이러한 혁신을 통해 고품질 이미지를 빠르게 생성할 수 있어 AI 생성 예술 분야의 효율성과 효율성이 크게 향상됩니다.

DMD 프레임워크는 안정적인 공간 매핑을 위한 회귀 손실과 생성된 이미지 빈도를 실제 발생과 일치시키는 분포 매칭 손실을 통합하는 이중 구성 요소 전략을 활용합니다. 두 가지 유도 확산 모델의 통찰력을 바탕으로 지원되는 이 접근 방식은 1단계 생성 프로세스를 촉진하여 필요한 시간과 계산 리소스를 줄입니다. 속도에도 불구하고 DMD는 Fréchet 개시 거리 점수에서 알 수 있듯이 이미지 품질 및 다양성 측면에서 기존 모델과 거의 동등한 수준을 달성하여 다양한 벤치마크에서 인상적인 성능을 보여줍니다.

AI 이미지 생성의 이러한 발전은 디자인, 약물 발견, 3D 모델링과 같이 신속한 콘텐츠 생성이 필요한 애플리케이션에 새로운 가능성을 열어줍니다. 다가오는 컨퍼런스에서 발표될 MIT 팀의 작업은 컴퓨팅 비용을 줄이고 고품질 이미지 생성의 접근성과 속도를 향상시키는 데 있어 중요한 진전을 나타내며 창의적 영역과 산업 영역에서 AI 통합의 새로운 시대를 예고합니다.

 

 

 

 

확산 모델은 훈련된 분포의 점수 함수를 근사화하는 것으로 알려져 있습니다. 즉, 비현실적인 합성 영상은 노이즈 제거 과정을 통해 확률 밀도가 높은 영역으로 향하게 될 수 있습니다( SDS 참조 ). 우리의 핵심 아이디어는 목표 실제 분포의 점수 함수뿐만 아니라 가짜 분포의 점수 함수도 추정하기 위해 두 가지 확산 모델을 훈련하는 것입니다. 우리는 두 점수 사이의 차이로 생성기에 대한 그래디언트 업데이트를 구성하여 생성된 이미지를 더 높은 현실감과 더 낮은 가짜로 유도합니다( VSD 참조 ). 우리의 방법은 실제 분포와 가짜 분포 사이의 차이를 최소화하기 위해 비평가가 생성기와 공동으로 훈련된다는 점에서 GAN과 유사하지만 훈련이 훈련 불안정을 유발할 수 있는 적대적인 게임을 하지 않으며 비평가가 완전히 할 수 있다는 점에서 다릅니다. 사전 훈련된 확산 모델의 가중치를 활용합니다. 다단계 확산 모델의 출력과 일치하는 단순 회귀 손실과 결합된 우리의 방법은 발표된 모든 몇 단계 확산 접근 방식보다 성능이 뛰어나며 ImageNet 64x64에서 2.62 FID에 도달하고 제로샷 COCO-30k에서 11.49 FID에 도달하며 Stable Diffusion과 유사합니다. 하지만 훨씬 더 빠릅니다. 우리 모델은 FP16 추론을 활용하여 최신 하드웨어에서 20FPS로 이미지를 생성합니다.

DMD 방법 개요





무작위 노이즈 z를 현실적인 이미지로 매핑하기 위해 1단계 생성기 G θ를 훈련합니다. 확산 모델의 다단계 샘플링 출력을 일치시키기 위해 우리는 노이즈-이미지 쌍 모음을 미리 계산하고 때때로 컬렉션에서 노이즈를 로드하고 1단계 생성기와 확산 출력 사이에 LPIPS 회귀 손실을 적용합니다. 또한, 현실감을 높이기 위해 가짜 이미지에 분포 매칭 그래디언트 ∇ θ D KL을 제공합니다 . 우리는 가짜 이미지에 임의의 양의 노이즈를 주입하고 이를 두 개의 확산 모델에 전달합니다. 하나는 실제 데이터에 대해 사전 훈련되고 다른 하나는 확산 손실이 있는 가짜 이미지에 대해 지속적으로 훈련되어 노이즈가 제거된 버전을 얻습니다. 노이즈 제거 점수(플롯에서 평균 예측으로 시각화됨)는 이미지를 더 현실적이거나 가짜로 만드는 방향을 나타냅니다. 둘 사이의 차이는 더 사실적이고 덜 가짜인 방향을 나타내며 1단계 생성기로 역전파됩니다.



안정확산과의 비교



전사 추장의 중간 샷 측면 프로필 사진, 날카로운 얼굴 특징, 빨간색 바탕에 파란색 부족 표범 화장, 시선, 진지하지만 선명한 눈, 50mm 초상화, 사진, 하드 림 조명 사진


SD(50단계)
2590ms

우리 것 (1 단계)
90ms



여우 우주비행사의 초현실적인 사진; 완벽한 얼굴, 아트스테이션


SD(50단계)
2590ms

우리 것 (1 단계)
90ms



폭설 속에서 골든 리트리버의 DSLR 사진


SD(50단계)
2590ms

우리 것 (1 단계)
90ms



돌로미티의 라이트쇼


SD(50단계)
2590ms

우리 것 (1 단계)
90ms



숲의 거대한 마법의 사슴 신이 숲 바닥에서 꽃 냄새를 맡고 있습니다. 반딧불이는 어디에나 있습니다. 샘물. 나뭇가지에 긴 이끼가 매달려 있습니다. 월광. 사실주의, 영화 촬영, 영화 조명, 내셔널 지오그래픽, 유사 색상, 수상 경력이 있는 사진


SD(50단계)
2590ms

우리 것 (1 단계)
90ms



3D 렌더링 아기 앵무새, Chibi, 사랑스러운 큰 눈. 나비, 녹지, 무성하고 기발하고 부드러우며 마법 같은 옥탄 렌더링, 요정 먼지가 있는 정원에서


SD(50단계)
2590ms

우리 것 (1 단계)
90ms



다른 확산 증류 방법과의 비교



영화 스틸 스타일로 숲속의 유니콘을 클로즈업한 사진


SD(50단계)
2590ms

Instaflow(1단계)
90ms

LCMv1.5(2단계)
120ms

우리 것 (1 단계)
90ms



물 속에서 테니스 공을 쫓는 래브라도 리트리버의 놀라운 사진, 피쉬아이 렌즈, 클로즈업 초상화, 미친 이미지


SD(50단계)
2590ms

Instaflow(1단계)
90ms

LCMv1.5(2단계)
120ms

우리 것 (1 단계)
90ms



마법에 걸린 마법의 숲에서 흰 수염을 기른 ​​현명한 노인


SD(50단계)
2590ms

Instaflow(1단계)
90ms

LCMv1.5(2단계)
120ms

우리 것 (1 단계)
90ms



작은 장난감 나무늘보가 탄산음료를 마시고 있는 매크로 사진, 밝은 파스텔톤 사이클로라마에 촬영


SD(50단계)
2590ms

Instaflow(1단계)
90ms

LCMv1.5(2단계)
120ms

우리 것 (1 단계)
90ms



화성에 낙타를 탄 우주비행사


SD(50단계)
2590ms

Instaflow(1단계)
90ms

LCMv1.5(2단계)
120ms

우리 것 (1 단계)
90ms



햇빛 아래 주황색 포르쉐의 고해상도 사진


SD(50단계)
2590ms

Instaflow(1단계)
90ms

LCMv1.5(2단계)
120ms

우리 것 (1 단계)
90ms



아름다운 털이 흰 고양이의 수중 사진 초상화, 머리카락이 떠있습니다. 역동적인 수영 자세를 취하고 있습니다. 태양 광선은 물을 통해 필터링됩니다. 하이 앵글 샷. 후지필름 X로 촬영


SD(50단계)
2590ms

Instaflow(1단계)
90ms

LCMv1.5(2단계)
120ms

우리 것 (1 단계)
90ms



3D 애니메이션 영화 스타일의 어린 원시인 아이가 자연 환경에 있습니다.


SD(50단계)
2590ms

Instaflow(1단계)
90ms

LCMv1.5(2단계)
120ms

우리 것 (1 단계)
90ms

BibTeX

@article{yin2024onestep,
    title={One-step Diffusion with Distribution Matching Distillation},
    author={Yin, Tianwei and Gharbi, Micha{\"e}l and Zhang, Richard and Shechtman, Eli and Durand, Fr{\'e}do and Freeman, William T and Park, Taesung},
    journal={CVPR},
    year={2024}
  }

 

 

 

 

 

 

 

 

 

 

댓글