Voicebox 소개: 최첨단 성능으로 작업 전반에 걸쳐 일반화되는 음성용 최초의 생성 AI 모델
Meta AI 연구자들은 음성용 생성 AI에서 획기적인 발전을 이루었습니다. 우리는 최신 성능으로 달성하도록 특별히 훈련되지 않은 음성 생성 작업으로 일반화할 수 있는 최초의 모델인 Voicebox를 개발했습니다.
이미지 및 텍스트를 위한 생성 시스템과 마찬가지로 Voicebox는 다양한 스타일로 출력을 생성하며 주어진 샘플을 수정할 수 있을 뿐만 아니라 처음부터 출력을 생성할 수 있습니다. 그러나 그림이나 텍스트 구절을 만드는 대신 Voicebox는 고품질 오디오 클립을 생성합니다. 이 모델은 6개 언어의 음성을 합성할 수 있을 뿐만 아니라 노이즈 제거, 콘텐츠 편집, 스타일 변환 및 다양한 샘플 생성을 수행할 수 있습니다.
Voicebox 이전에는 음성용 생성 AI는 신중하게 준비된 훈련 데이터를 사용하여 각 작업에 대한 특정 훈련이 필요했습니다. Voicebox는 새로운 접근 방식을 사용하여 원시 오디오와 함께 제공되는 전사에서 학습합니다. 오디오 생성을 위한 자동 회귀 모델과 달리 Voicebox는 주어진 오디오 클립의 끝뿐만 아니라 주어진 샘플의 모든 부분을 수정할 수 있습니다.
Voicebox는 확산 모델을 개선하는 것으로 나타난 Flow Matching이라는 방법을 기반으로 합니다. Voicebox는 명료도(5.9% vs. 1.9% 단어 오류율)와 오디오 유사성(0.580 vs. 0.681) 측면에서 제로 샷 텍스트 음성 변환에서 현재 최첨단 영어 모델 VALL-E를 능가합니다. 무려 20배나 빨라졌습니다. 언어 간 스타일 전송의 경우 Voicebox는 평균 단어 오류율을 10.9%에서 5.2%로 줄이고 오디오 유사성을 0.335에서 0.481로 향상시키기 위해 YourTTS를 능가합니다.

생성 음성 모델에 대한 많은 흥미로운 사용 사례가 있지만 오용의 잠재적 위험 때문에 현재 Voicebox 모델 또는 코드를 공개적으로 사용할 수 있도록 하지 않습니다. 우리는 AI 커뮤니티와 함께 개방하고 AI의 최신 기술을 발전시키기 위해 연구를 공유하는 것이 중요하다고 생각하지만 개방성과 책임 사이에서 올바른 균형을 유지하는 것도 필요합니다. 이러한 고려 사항을 바탕으로 오늘 우리는 오디오 샘플과 우리가 달성한 접근 방식과 결과를 자세히 설명하는 연구 논문을 공유하고 있습니다. 백서 에서는 Voicebox로 생성된 실제 음성과 오디오를 구별할 수 있는 매우 효과적인 분류기를 구축한 방법도 자세히 설명합니다.
음성 생성에 대한 새로운 접근 방식
기존 음성 합성기의 주요 한계 중 하나는 해당 작업을 위해 명시적으로 준비된 데이터로만 훈련할 수 있다는 것입니다. 단조롭고 깨끗한 데이터로 알려진 이러한 입력은 생성하기 어렵기 때문에 한정된 수량으로만 존재하며 결과적으로 단조로운 사운드가 출력됩니다.
우리 는 텍스트와 음성 간의 매우 비결정적 매핑을 학습할 수 있는 비자동회귀 생성 모델에 대한 Meta의 최신 발전인 Flow Matching 모델 을 기반으로 Voicebox를 구축했습니다 . 비결정적 매핑은 신중하게 라벨을 지정하지 않고도 Voicebox가 다양한 음성 데이터에서 학습할 수 있기 때문에 유용합니다. 이는 Voicebox가 더 다양한 데이터와 훨씬 더 큰 규모의 데이터를 학습할 수 있음을 의미합니다.
우리는 영어, 프랑스어, 스페인어, 독일어, 폴란드어, 포르투갈어로 된 퍼블릭 도메인 오디오북의 50,000시간 이상의 녹음된 음성 및 대본으로 Voicebox를 교육했습니다. Voicebox는 주변 음성과 세그먼트의 전사가 주어지면 음성 세그먼트를 예측하도록 훈련됩니다. 컨텍스트에서 음성을 채우는 방법을 학습한 모델은 전체 입력을 다시 만들지 않고도 오디오 녹음 중간에 부분을 생성하는 것을 포함하여 음성 생성 작업 전반에 이를 적용할 수 있습니다.
이러한 다재다능함 덕분에 Voicebox는 다음과 같은 다양한 작업에서 잘 수행할 수 있습니다.
상황에 맞는 텍스트 음성 변환 합성: Voicebox는 2초 길이의 입력 오디오 샘플을 사용하여 샘플의 오디오 스타일을 일치시키고 텍스트 음성 변환 생성에 사용할 수 있습니다. 향후 프로젝트는 말을 할 수 없는 사람들에게 음성을 제공하거나 비플레이어 캐릭터 및 가상 비서가 사용하는 음성을 사용자 정의할 수 있도록 함으로써 이 기능을 기반으로 구축될 수 있습니다.
교차 언어 스타일 전송: 음성 샘플과 영어, 프랑스어, 독일어, 스페인어, 폴란드어 또는 포르투갈어로 된 텍스트 구절이 주어지면 Voicebox는 해당 언어로 텍스트 읽기를 생성할 수 있습니다. 이 기능은 미래에 사람들이 같은 언어를 사용하지 않더라도 자연스럽고 진정성 있는 방식으로 의사소통하는 데 사용될 수 있기 때문에 흥미진진합니다.
음성 잡음 제거 및 편집: Voicebox의 상황 내 학습을 통해 음성을 생성하여 오디오 녹음 내 세그먼트를 원활하게 편집할 수 있습니다. 짧은 지속 시간의 소음으로 인해 손상된 음성 부분을 재합성하거나 전체 음성을 다시 녹음하지 않고도 잘못된 단어를 교체할 수 있습니다. 사람은 소음(예: 개가 짖는 소리)으로 인해 음성의 원시 세그먼트가 손상되었는지 식별하고 잘라낸 다음 모델이 해당 세그먼트를 재생성하도록 지시할 수 있습니다. 이 기능을 사용하면 인기 있는 이미지 편집 도구가 사진을 조정하는 것처럼 쉽게 오디오를 정리하고 편집할 수 있습니다.
다양한 음성 샘플링: 다양한 실제 데이터에서 학습한 Voicebox는 위에 나열된 6개 언어를 통해 실제 세계에서 사람들이 말하는 방식을 더 잘 나타내는 음성을 생성할 수 있습니다. 앞으로 이 기능은 합성 데이터를 생성하여 음성 도우미 모델을 더 잘 훈련하는 데 도움이 될 수 있습니다. 우리의 결과는 Voicebox에서 생성된 합성 음성으로 훈련된 음성 인식 모델이 실제 음성으로 훈련된 모델과 거의 동일한 성능을 보이는 것으로 나타났습니다. 오류율은 이전의 텍스트 음성 변환 모델에서 합성 음성으로 45~70% 저하된 반면 오류율은 1% 저하되었습니다. .
제너레이티브 AI 연구를 책임감 있게 공유
작업 일반화를 성공적으로 수행하는 최초의 다재다능하고 효율적인 모델인 Voicebox는 음성용 생성 AI의 새로운 시대를 열 수 있다고 믿습니다. 다른 강력하고 새로운 AI 혁신과 마찬가지로, 우리는 이 기술이 오용 및 의도하지 않은 피해의 가능성을 가져온다는 것을 알고 있습니다. 우리의 백서에서는 이러한 미래의 위험을 완화하기 위해 Voicebox로 생성된 실제 음성과 오디오를 구별할 수 있는 매우 효과적인 분류기를 어떻게 구축했는지 자세히 설명합니다. 우리는 연구 커뮤니티가 우리의 작업에 대해 공개하고 책임감 있게 AI를 구축하는 방법에 대해 우리가 가지고 있는 중요한 대화를 계속할 수 있도록 하는 것이 중요하다고 생각합니다. 이것이 우리가 연구 논문에서 우리의 접근 방식과 결과를 공유하는 이유입니다. .
Voicebox는 생성 AI 연구에서 중요한 진전을 나타냅니다. 작업 일반화 기능을 갖춘 다른 확장 가능한 생성 AI 모델은 텍스트, 이미지 및 비디오 생성과 관련하여 작업 전반에 걸쳐 잠재적인 응용 프로그램에 대한 흥분을 불러일으켰습니다. 앞으로 연설에서도 비슷한 영향을 미치기를 바랍니다. 우리는 오디오 영역에 대한 탐구를 계속하고 다른 연구원들이 우리 작업을 어떻게 구축하는지 보기를 기대합니다.
이 블로그 게시물은 Matt Le, Apoorv Vyas, Bowen Shi, Brian Karrer, Leda Sari, Rashel Moritz, Mary Williamson, Vimal Manohar, Yossi Adi, Jay Mahadeokar 및 Wei-Ning Hsu의 작업으로 작성되었습니다.
Meta AI 연구원들은 특별히 훈련되지 않은 작업을 능가하는 획기적인 음성용 생성 AI인 Voicebox를 공개하여 현장에서 새로운 성능 표준을 설정했습니다. Meta는 모델이 너무 좋아서 공개적으로 사용하기에는 너무 두렵다고 주장합니다. 특정 작업 교육과 세심하게 준비된 데이터가 필요한 다른 모델과 달리 Voicebox는 원시 오디오 및 전사에서 학습하여 6개 언어에 걸쳐 고품질 오디오 클립을 제공하고 노이즈 제거, 콘텐츠 편집, 스타일 변환 및 다양한 샘플 생성 기능을 제공합니다. 이 모델은 현재 최고의 영어 모델인 VALL-E 및 YourTTS보다 단어 오류율 및 오디오 유사성과 관련하여 제로샷 텍스트 음성 변환 및 교차 언어 스타일 전송에서 최대 20배 더 빠릅니다.
Voicebox는 비자동회귀 생성 모델인 Flow Matching 모델을 기반으로 구축되었으며 50,000시간 이상의 녹음된 음성 및 트랜스크립트로 훈련되어 상황에 맞는 텍스트 음성 합성, 언어 간 합성과 같은 다양한 응용 프로그램이 가능합니다. 스타일 전송, 음성 노이즈 제거 및 편집, 다양한 음성 샘플링. 그러나 잠재적인 오용 위험으로 인해 Meta는 Voicebox 모델이나 코드를 공개적으로 공개하지 않고 오디오 샘플과 접근 방식 및 결과를 설명하는 연구 논문을 공유할 것입니다. 팀은 Voicebox가 생성 AI 연구에서 중요한 진전을 의미한다고 믿으며 오디오 영역에서 향후 응용 프로그램 및 개발을 기대합니다.