티스토리 뷰

 

 

최근 유튜브 채널 ' 내가 망쳤어' 라는 뮤직비디오 에는 유명 뮤지컬 아티스트의 인공지능 목소리가 등장해 놀라운 곡의 가사가 등장했다. 최근의 한 예는 Elvis가 Sir Mix-a-Lot의 Baby Got Back 가사를 부르는 것을 상상합니다 . 또 다른 특징은 Aqua의 Barbie Girl 의 가사를 부르는 가짜 Johnny Cash입니다 .

(원본 Elvis 비디오는 이후 Universal Music Group의 저작권 주장으로 인해 YouTube에서 삭제 되었지만 인터넷의 마법 덕분에 어쨌든들을 수 있습니다 .)

 

 

 

 

분명히 Elvis는 46년 동안(그리고 Cash는 20년 동안) 사망했기 때문에 어느 누구도 실제로 노래를 직접 부를 수 없었습니다. 그것이 AI가 들어오는 곳입니다. 그러나 우리가 보게 될 것처럼 생성적 AI가 놀라울 수 있지만 이러한 음악적 매시업을 만드는 데는 여전히 많은 인간의 재능과 노력이 필요합니다.

There I Ruined It이 어떻게 마법을 부리는지 알아보기 위해 먼저 채널 제작자인 뮤지션 Dustin Ballard에게 연락했습니다. Ballard의 응답은 세부적으로 낮았지만 기본 워크플로우를 설명했습니다. 그는 so-vits-svc 라는 AI 모델을 사용하여 자신이 녹음한 자신의 보컬을 다른 아티스트의 보컬로 변환합니다. 그는 이메일을 통해 Ars Technica에 "현재 매우 사용자 친화적인 프로세스가 아니며 훈련 자체가 훨씬 더 어렵습니다. 하지만 기본적으로 훈련된 모델이 있으면 (깨끗한 오디오 참조의 대규모 샘플을 기반으로) , 그런 다음 자신의 보컬 트랙을 업로드하고 모델링한 목소리로 대체할 수 있습니다. 그런 다음 믹스에 넣고 그 주위에 노래를 만듭니다."

하지만 잠시 백업해 보겠습니다. "so-vits-svc"는 무엇을 의미합니까? 이 이름은 서로 연결된 일련의 오픈 소스 기술에서 유래되었습니다. "so" 부분은 소스 오디오(가수의 목소리)를 신경망에서 인코딩하고 학습할 수 있는 주요 부분으로 나누는 " SoftVC "("음성 변환"의 VC)에서 나옵니다. "VITS" 부분은 이 2021년 논문 에서 만들어진 "Variational Inference with adversarial learning for end-to-end Text-to-Speech"의 약어입니다 . VITS는 훈련된 보컬 모델에 대한 지식을 가지고 변환된 음성 출력을 생성합니다. 그리고 "SVC"는 다른 사람의 말하는 목소리를 변환하는 것과 반대로 노래하는 목소리를 다른 목소리로 변환하는 "노래하는 음성 변환"을 의미합니다.

 

 

근의 There I Ruined It 노래는 한 가지 측면에서 주로 AI를 사용합니다. AI 모델은 Ballard의 보컬 성능에 의존하지만 Respeecher의 음성 대 음성 기술이 어떻게 사람을 변화시킬 수 있는지와 유사하게 Ballard의 음색을 다른 사람의 음색으로 변경 합니다 . 제임스 얼 존스의 목소리에 배우의 다스 베이더 연기. 나머지 노래는 기존 음악 앱에서 Ballard의 편곡에서 가져옵니다.

복잡한 과정 - 현재

so-vits-svc-fork (원래 so-vits-svc의 변경된 버전) 를 사용하여 음악 음성 복제 프로세스에 대한 더 많은 통찰력을 얻기 위해 Ballard가 만든 Elvis 음성 AI 모델의 창시자인 Michael van Voorst를 추적했습니다. 그의 Baby Got Back 비디오에 사용되었습니다. 그는 AI 매시업을 만드는 데 필요한 단계를 안내했습니다.

 

 

van Voorst는 "정확한 음성 복제본을 생성하려면 음성 모델을 구축하려는 사람의 깨끗한 음성 오디오 샘플 데이터 세트를 생성하는 것부터 시작합니다."라고 말했습니다. "최상의 결과를 얻으려면 오디오 샘플이 스튜디오 품질이어야 합니다. 품질이 낮으면 보컬 모델에 다시 반영됩니다."

Elvis의 경우, van Voorst는 1973년 Elvis의 유명한 Aloha From Hawaii 콘서트의 보컬 트랙을 음성 모델 훈련을 위한 기초 자료로 사용했습니다. 신중한 수동 검사 후 van Voorst는 36분 분량의 고품질 오디오를 추출한 다음 올바른 처리를 위해 10초 단위로 나누었습니다. "밴드나 청중의 소음과 같은 간섭이 있는지 주의 깊게 듣고 데이터 세트에서 제거했습니다."라고 그는 말했습니다. 또한 "더욱 다양하고 다양한 샘플로 모델의 완성도가 높아진다"며 다양한 보컬 표현을 담아내려 노력했다.

다음으로 van Voorst는 so-vits-svc-fork 교육 프로세스를 수행하는 데 필요한 일련의 다소 복잡하고 기술적인 단계를 공유했습니다. 시도하려는 모든 사람에게 유용할 수 있도록 여기에서 반복합니다.

 

 

오디오를 준비했으면 프로그램의 디렉토리 구조에 넣습니다. 제 경우에는 /dataset_raw/elvis/ 였습니다. 그런 다음 모델 교육을 시작하려면 이 순서대로 몇 가지 명령을 실행해야 합니다. "svc pre-resample"은 오디오를 모노 44.1khz 파일로 변환합니다. 그런 다음 "svc pre-config"는 몇 가지 구성 파일을 다운로드하여 올바른 디렉토리에 넣습니다. "svc pre-hubert"는 사전 훈련된 음성 모델을 다운로드하고 실행합니다. 여기에는 마지막 단계에서 고유한 모델을 생성할 때 예측 가능한 출력을 얻을 수 있도록 지침이 포함되어 있습니다.

이 마지막 단계는 "svc train -t"입니다. 학습을 시작하고 TensorBoard 가 포함된 브라우저 창을 엽니다 . TensorBoard를 사용하면 모델의 진행 상황을 추적할 수 있습니다. 결과에 만족하면 교육을 중단할 수 있습니다. 진행 상황은 단계적으로 측정됩니다. 구성 파일에서 모델을 디스크에 쓰는 빈도를 변경할 수 있습니다. Elvis의 경우 100걸음마다 사본을 갖고 싶었고 궁극적으로 211k 걸음에서 만족했습니다.

 

 

van Voorst는 211,000단계의 훈련을 실행한 후 Elvis AI 음성 모델을 실행할 준비가 되었습니다. 다음으로 van Voorst는 온라인에서 다른 사람들과 모델을 공유했습니다. 그곳에서 I Ruined It 제작자 Dustin Ballard는 Elvis 보컬 모델을 다운로드했습니다. 사람들은 같은 생각을 가진 음성 복제 애호가의 Discord 커뮤니티를 통해 자주 공유하며 작업의 일부를 시작했습니다.

노래를 만들기 위해 Ballard는 Pro Tools 와 같은 기존의 음악 워크스테이션 앱을 열고 인간 뮤지션이 연주하는 Elvis 히트곡 Do n't Be Cruel 의 악기 백킹 트랙을 가져왔습니다 . 다음으로 Ballard는 Do n't Be Cruel 의 곡에 맞춰 Baby Got Back 의 가사를 불렀고 그의 공연을 녹음했습니다. 그는 노래의 모든 백 보컬에 대해 똑같이 반복했습니다. 다음으로 그는 so-vits-svc를 사용하여 van Voorst의 Elvis AI 모델을 통해 녹음된 보컬을 실행하여 대신 Elvis가 노래하는 것처럼 들리게 했습니다.

 

van Voorst는 노래를 실제처럼 들리게 하고 가능한 한 원본 레코드에 가깝게 만들려면 피치 보정이나 시간 스트레칭과 같은 현대 기술을 사용하지 않는 것이 최선이라고 말했습니다. " 녹음 중 보컬의 프레이즈와 타이밍은 자연스러운 소리를 내기 위한 가장 좋은 방법입니다." 그는 Baby Got Back AI 노래에서 몇 가지 숨길 수 없는 징후를 지적하며 말했습니다. " 'sprung'이라는 단어와 약간의 피치 보정에 사용된 시간 스트레칭 기능의 일부 잔재가 들리지만 그 외에는 매우 자연스럽게 들립니다."

그런 다음 Ballard는 Elvis 스타일의 보컬을 Pro Tools로 가져와 원래 가이드 보컬을 교체하고 악기 백킹 트랙과 함께 정렬했습니다. 믹싱 후 AI가 추가된 새로운 곡이 완성되었고 그는 이를 YouTube와 TikTok 동영상에 기록했습니다.
van Voorst는 "현재 이와 같은 도구는 여전히 많은 준비가 필요하며 사용자 친화적이지 않은 설치 프로세스가 함께 제공되는 경우가 많습니다. 그러나 기술이 발전함에 따라 앞으로 몇 달, 몇 년 안에 사용하기 쉬운 솔루션을 보게 될 것입니다. 현재로서는 오픈 소스 소프트웨어를 손볼 의향이 있는 Ballard와 같은 기술적인 경향이 있는 음악가들이 AI를 사용하여 새로운 자료를 생성하는 데 있어 우위를 점하고 있습니다.

 

 

 

 

이 기술의 또 다른 최근 쇼케이스에서 Dae Lims로 알려진 YouTube 아티스트는 유사한 기술을 사용하여 젊은 Paul McCartney의 목소리를 재현했지만 그 결과는 여전히 매우 인공적으로 들립니다. 그는 McCartney의 2018년 노래 I Don't Know 의 보컬을 자신의 것으로 교체한 다음 젊은 비틀의 음성 모델을 사용하여 변환했습니다. 비교를 통해 Ballard가 달성한 상대적으로 높은 품질의 결과는 부분적으로 Elvis의 보컬 프레이징과 매너리즘을 모방하여 so-vits-svc의 보컬 변형 작업을 더 쉽게 만드는 능력에서 비롯된 것일 수 있습니다.

우리는 AI가 전설적인 아티스트의 목소리를 효과적으로 모방할 수 있는 음악의 새로운 시대의 벼랑에 서 있는 것 같습니다. 이 기술의 의미는 광범위하고 불확실하며 저작권, 상표 및 심오한 윤리적 문제를 만집니다. 그러나 지금은 AI의 힘을 통해 Elvis가 자신의 아나콘다에 대해 노래하는 것을 들을 수 있고 정글 룸과는 아무런 관련이 없는 끔찍하고 이상한 현실에 경탄할 수 있습니다.

댓글