VideoPoet - Google의 새로운 멀티모달 AI 비디오 생성기
Google AI, VideoPoet 공개: 제로샷 비디오 생성 대규모 언어 모델
새해, 새로운 AI. 2023년에는 GPT-4 , Gemini , Midjourney V6 등 AI 세계에서 대규모 출시가 있었으며, 2024년에도 다르지 않을 것으로 보입니다.
Google은 새해에 최신 모델인 VideoPoet을 선보일 예정입니다. VideoPoet은 Google이 약속한 "멀티모달 AI"에 최근 추가된 기능입니다. 즉, 텍스트, 오디오, 이미지, 심지어 비디오까지 생성할 수 있습니다. VideoPoet이 적합한 마지막 부분입니다.
VideoPoet은 텍스트-비디오, 이미지-비디오, 비디오-오디오 등 다양한 비디오 관련 생성 작업을 수행할 수 있는 실험적인 LLM(대형 언어 모델)입니다.
텍스트-비디오를 예로 들어보겠습니다. "타임스퀘어에서 와인을 마시는 너구리"와 같은 우스꽝스러운 내용을 입력하면 몇 초 내에 생성된 비디오가 생성되어 원하는 스타일로 공유할 수 있습니다. Mona Lisa가 ABBA 노래를 립싱크하는 것을 상상해보세요.
애니메이션으로 만들고 싶은 이미지가 이미 있나요? 그것을 끌어오면 VideoPoet이 이미지를 기반으로 짧은 클립을 생성합니다. 비디오가 생성되면 AI에게 지시를 전달하기만 하면 추가로 편집하고 원하는 대로 스타일을 지정할 수 있습니다.
특정 텍스트 입력에 맞춰 다양한 동작과 스타일로 비디오를 생성하는 VideoPoet의 기능은 콘텐츠와 맥락 모두에 대한 고급 이해를 보여줍니다.
최근 비디오 세대 모델이 등장하여 많은 경우 놀라운 그림 같은 품질을 보여줍니다. 현재 비디오 생성의 병목 현상 중 하나는 일관성 있는 대형 모션을 생성하는 능력입니다. 대부분의 경우 현재의 주요 모델조차도 작은 모션을 생성하거나 더 큰 모션을 생성할 때 눈에 띄는 아티팩트를 나타냅니다.
비디오 생성에서 언어 모델의 적용을 탐색하기 위해 텍스트-비디오, 이미지-비디오, 비디오 스타일화 등 다양한 비디오 생성 작업을 수행할 수 있는 LLM(대형 언어 모델)인 VideoPoet을 소개 합니다. 비디오 인페인팅 및 아웃페인팅 , 비디오-오디오. 주목할만한 관찰 중 하나는 주요 비디오 생성 모델이 거의 전적으로 확산 기반이라는 것입니다(예를 들어 Imagen Video 참조 ). 반면, LLM은 언어, 코드, 오디오(예: AudioPaLM ) 를 포함한 다양한 양식에 걸친 탁월한 학습 기능으로 인해 사실상의 표준으로 널리 인식되고 있습니다 . 이 분야의 대체 모델과 달리 우리의 접근 방식은 각 작업을 전문으로 하는 별도로 훈련된 구성 요소에 의존하는 대신 단일 LLM 내에서 많은 비디오 생성 기능을 원활하게 통합합니다.
Google AI 는 자동 회귀 언어 모델이나 대규모 언어 모델을 고품질 비디오 생성기로 변환할 수 있는 모델링 방법인 VideoPoet을 공개했습니다. VideoPoet은 특히 다양한 크고 흥미롭고 충실도가 높은 모션을 생성하는 분야에서 최첨단 비디오 생성을 보여줍니다.
VideoPoet의 핵심은 멀티태스커입니다. 정적 이미지 애니메이션부터 인페인팅 또는 아웃페인팅을 위한 비디오 편집, 비디오에서 오디오 생성까지 그 범위는 광범위합니다. 모델은 텍스트, 이미지 또는 비디오를 입력으로 사용할 수 있으며 출력은 무엇보다도 텍스트-비디오, 이미지-비디오, 비디오-오디오 변환 범위에 걸쳐 있습니다. 이러한 다용도성은 VideoPoet을 다양한 비디오 생성 작업을 위한 포괄적인 솔루션으로 자리매김합니다. 주요 이점은 여러 기능이 하나의 모델 내에 통합되어 별도의 전문 구성 요소가 필요하지 않다는 것입니다.
VideoPoet을 차별화하는 점은 LLM이 언어를 처리하는 방식과 유사하게 비디오 및 오디오 표현을 위한 개별 토큰에 의존한다는 것입니다. VideoPoet은 여러 토크나이저(비디오 및 이미지용 MAGVIT V2, 오디오용 SoundStream)를 사용하여 이러한 양식을 보기 가능한 형식으로 인코딩 및 디코딩할 수 있습니다. 이러한 접근 방식을 통해 모델은 언어 처리 능력을 비디오 및 오디오로 확장하여 제작자와 기술자 모두를 위한 강력한 도구가 됩니다.
특정 텍스트 입력에 맞춰 다양한 동작과 스타일로 비디오를 생성하는 VideoPoet의 기능은 콘텐츠와 맥락 모두에 대한 고급 이해를 보여줍니다. 그림에 애니메이션을 적용하거나 설명 텍스트에서 비디오 클립을 생성하는 등 모델은 오랜 시간 동안에도 개체의 무결성과 모양을 유지하는 놀라운 능력을 보여줍니다. Google은 이 모델이 짧은 형식의 콘텐츠에 맞게 세대를 맞춤화하기 위해 정사각형 방향 또는 세로 방향으로 비디오를 생성하고 비디오 입력에서 오디오 생성을 지원한다고 밝혔습니다.
VideoPoet의 주목할만한 기능은 대화형 비디오 편집 기능입니다. 사용자는 모델을 안내하여 비디오 내의 모션이나 동작을 수정하여 높은 수준의 창의적인 제어를 제공할 수 있습니다. 또한 이 모델은 카메라 모션 명령에 정확하게 반응하여 역동적이고 시각적으로 매력적인 콘텐츠를 만드는 데 있어 활용도를 더욱 향상시킵니다. 또한 VideoPoet은 어떠한 안내 없이도 생성된 비디오에 대해 그럴듯한 오디오를 생성할 수 있어 뛰어난 다중 모드 이해를 보여줍니다.
기본적으로 VideoPoet은 2초짜리 비디오를 출력합니다. 그러나 1초짜리 비디오 클립이 주어지면 1초의 비디오 출력을 예측할 수 있습니다. 이 과정을 무한정 반복하여 원하는 길이의 비디오를 제작할 수 있습니다.
결과는 여전히 Runway 및 Pika의 도구에 비해 상당히 뒤떨어져 있지만 VideoPoet은 Google이 AI 기반 비디오 생성 및 편집 분야에서 이루고 있는 중요한 진전을 강조합니다.
VideoPoet에서 생성된 기존 비디오 클립을 대화식으로 편집하는 것도 가능합니다. 입력 비디오를 제공하면 객체의 모션을 변경하여 다양한 작업을 수행할 수 있습니다. 개체 조작은 첫 번째 프레임이나 중간 프레임의 중앙에 집중될 수 있으므로 높은 수준의 편집 제어가 가능합니다.
예를 들어 입력 비디오에서 일부 클립을 무작위로 생성하고 원하는 다음 클립을 선택할 수 있습니다.
이미지를 비디오 제어로
마찬가지로 입력 이미지에 모션을 적용하여 텍스트 프롬프트에 따라 원하는 상태로 콘텐츠를 편집할 수 있습니다.
카메라 모션
또한 원하는 카메라 동작 유형을 텍스트 프롬프트에 추가하여 카메라 동작을 정확하게 제어할 수도 있습니다. 예를 들어, 우리는 "맑은 강 옆 눈 덮인 산 위로 일출을 표현하는 어드벤처 게임 컨셉 아트"라는 프롬프트를 사용하여 모델을 통해 이미지를 생성했습니다 . 아래 예에서는 원하는 모션을 적용하기 위해 주어진 텍스트 접미사를 추가합니다.
VideoPoet을 통해 우리는 다양한 작업, 특히 비디오 내에서 흥미롭고 고품질 모션을 생성하는 데 있어 LLM의 경쟁력 있는 비디오 생성 품질을 입증했습니다. 우리의 결과는 비디오 생성 분야에서 LLM의 유망한 잠재력을 시사합니다. 향후 방향을 위해 우리 프레임워크는 "모든 대 임의" 생성을 지원할 수 있어야 합니다. 예를 들어 텍스트에서 오디오로, 오디오에서 비디오로, 비디오 캡션으로 확장하는 것이 가능해야 합니다.