티스토리 뷰

 

 

Adobe Research 와 Australian National University 의 연구진이 단 5초 만에 단일 2D 이미지를 고품질 3D 모델로 변환할 수 있는 획기적인 인공 지능( AI ) 모델을 개발했습니다.

연구 논문 LRM: 단일 이미지를 3D로 변환하기 위한 대규모 재구성 모델 에 자세히 설명 된 이 획기적인 기술은 게임, 애니메이션, 산업 디자인, 증강 현실(AR) 및 가상 현실(VR)과 같은 산업에 혁명을 일으킬 수 있습니다.

“임의의 물체에 대한 단일 이미지에서 즉시 3D 모양을 만들 수 있다고 상상해 보십시오. 산업 디자인, 애니메이션, 게임 및 AR/VR의 광범위한 응용 프로그램은 이러한 오랜 목표를 향한 일반적이고 효율적인 접근 방식을 모색하는 관련 연구에 강력한 동기를 부여했습니다.”라고 연구원은 썼습니다.

 

 

 

 

 

 

대규모 데이터 세트를 사용한 교육

카테고리별 방식으로 소규모 데이터세트를 학습한 이전 방법과 달리 LRM은 5억 개가 넘는 매개변수를 갖춘 확장성이 뛰어난 변환기 기반 신경망 아키텍처를 사용합니다. 입력 이미지에서 직접  신경 복사 필드( NeRF )를 예측하기위해 Objaverse 및 MVImgNet 데이터 세트의 약 100만 개 3D 개체에 대해 엔드투엔드 방식으로 훈련되었습니다.

 

"대량 모델과 대규모 교육 데이터의 이러한 결합을 통해 우리 모델은 고도로 일반화될 수 있으며 실제 야생 캡처 및 생성 모델의 이미지를 포함한 다양한 테스트 입력으로부터 고품질 3D 재구성을 생성할 수 있습니다." 종이 상태.

 

 

 

수석 저자인 Yicong Hong은 LRM이 단일 이미지 3D 재구성의 획기적인 발전을 의미한다고 말했습니다.

 “우리가 아는 한, LRM은 최초의 대규모 3D 재구성 모델입니다. 

여기에는 5억 개 이상의 학습 가능한 매개변수가 포함되어 있으며 다양한 범주에 걸쳐 약 백만 개의 3D 모양과 비디오 데이터에 대해 훈련되었습니다.”라고 그는 말했습니다.

실험에 따르면 LRM은 실제 이미지뿐만 아니라 DALL-E 및 Stable Diffusion 과 같은 AI 생성 모델로 생성된 이미지로부터 충실도가 높은 3D 모델을 재구성할 수 있는 것으로 나타났습니다.

이 시스템은 상세한 기하학을 생성하고 나무결과 같은 복잡한 질감을 보존합니다.

 

산업을 변화시킬 가능성

LRM의 잠재적 응용 분야는 산업 및 디자인 분야의 실제 사용에서부터 엔터테인먼트 및 게임에 이르기까지 광범위하고 흥미진진합니다. 비디오 게임이나 애니메이션용 3D 모델을 만드는 프로세스를 간소화하여 시간과 리소스 지출을 줄일 수 있습니다.

 

산업 디자인에서 모델은 2D 스케치에서 정확한 3D 모델을 생성하여 프로토타입 제작을 가속화할 수 있습니다. 

AR/VR에서 LRM은 2D 이미지에서 상세한 3D 환경을 실시간으로 생성하여 사용자 경험을 향상시킬 수 있습니다.

또한 "실제" 캡처 작업을 수행할 수 있는 LRM의 기능은 사용자 생성 콘텐츠와 3D 모델링의 민주화 가능성을 열어줍니다. 

사용자는 잠재적으로 스마트폰으로 촬영한 사진으로 고품질 3D 모델을 만들 수 있으며 창의적이고 상업적인 기회의 세계를 열 수 있습니다.

흐릿한 질감은 문제가 되지만 방법은 분야를 발전시킵니다.

연구원들은 유망하지만 LRM에는 폐색된 영역에 대한 흐릿한 텍스처 생성과 같은 한계가 있음을 인정했습니다. 

그러나 그들은 이 작업이 일반화된 3D 재구성 기능을 학습하기 위해 거대한 데이터세트로 훈련된 대규모 변환기 기반 모델의 가능성을 보여준다고 말했습니다.

 

“대규모 학습 시대에 우리의 아이디어가 임의의 야생 이미지에 잘 일반화되는 데이터 기반 3D 대규모 재구성 모델을 탐색하는 미래 연구에 영감을 줄 수 있기를 바랍니다.”라고 논문은 결론지었습니다.

 

팀의 프로젝트 페이지 에서 단일 이미지로 생성된 충실도가 높은 3D 개체 메시의 예를 통해 LRM의 인상적인 기능을 더 많이 확인할 수 있습니다.

 

 

 

댓글