티스토리 뷰

 

세계 최고의 개방형 생성 AI 회사인 Stability AI는 회사 최초의 음악 및 사운드 생성을 위한 AI 제품인 Stable Audio 의 출시를 오늘 발표했습니다. Stable Audio는 최신 생성 AI 기술을 사용하여 사용하기 쉬운 웹 인터페이스를 통해 더 빠르고 고품질의 음악을 제공하는 최초의 제품입니다. Stability AI는 최대 20초 길이의 트랙을 생성하고 다운로드하는 데 사용할 수 있는 Stable Audio의 기본 무료 버전과 상업용 프로젝트를 위해 다운로드할 수 있는 90초 트랙을 제공하는 'Pro' 구독을 모두 제공합니다.

 

 

Stability AI 는 사용자가 제공한 텍스트 프롬프트를 기반으로 음악과 사운드를 생성하도록 설계된 생성 모델인 Stable Audio를 도입했습니다. Stable Audio는 NVIDIA A100 GPU에서 1초 이내에 44.1kHz 샘플링 속도로 95초 분량의 스테레오 오디오를 생성할 수 있습니다. 원본 녹음에 비해 오디오의 잠재 표현이 크게 줄어들어 모델 처리 시간이 크게 단축되었습니다.

 

이미지 및 코드 생성을 위한 생성 AI 기술을 구축하면 무엇이 나올까요? 

Stability AI 의 경우 텍스트-오디오 생성입니다.

Stability AI는 오늘 누구나 간단한 텍스트 프롬프트를 사용하여 짧은 오디오 클립을 생성할 수 있는 기능을 제공하는 Stable Audio 기술 의 최초 공개 릴리스를 발표했습니다 . Stability AI는 Stable Diffusion 텍스트-이미지 생성 AI 기술을 뒷받침하는 조직으로 가장 잘 알려져 있습니다.  

지난 7월, Stable Diffusion은 향상된 이미지 구성을 위해 새로운 SDXL 기본 모델 로 업데이트되었습니다 . 이 회사는 8월에 StableCode를 출시하면서 이미지를 넘어 코드까지 범위를 확장함으로써 이 소식에 뒤따랐습니다 .

StableAudio는 새로운 기능이지만 Stable Diffusion을 통해 이미지를 생성하는 것과 동일한 핵심 AI 기술을 기반으로 합니다. 즉, Stable Audio 기술은 새로운 오디오 클립을 생성하기 위해 이미지가 아닌 오디오에 대해 훈련되었음에도 불구하고 확산 모드 l 을 사용합니다 .

 

Stability AI의 오디오 부사장인 Ed Newton-Rex는 VentureBeat에 "Stability AI는 이미지 작업으로 가장 잘 알려져 있지만 이제 우리는 Stable Audio라고 불리는 음악 및 오디오 생성을 위한 첫 번째 제품을 출시할 예정입니다."라고 말했습니다. "개념은 정말 간단합니다. 듣고 싶은 음악이나 오디오를 텍스트로 설명하면 우리 시스템이 이를 생성해 줍니다."

 

Stable Audio가 MIDI 파일이 아닌 새로운 음악을 생성하는 방법

Newton-Rex는 2011년에 Jukedeck이라는 자신의 스타트업을 설립하고 2019년에 TikTok에 매각하면서 컴퓨터 생성 음악의 세계에 익숙합니다.

그러나 Stable Audio의 기반이 되는 기술은 Jukedeck에 뿌리를 둔 것이 아니라 Zach Evans가 만든 Harmonai 라는 음악 세대를 위한 Stability AI의 내부 연구 스튜디오에 뿌리를 두고 있습니다.

Evans는 VentureBeat에 “이미지 생성 공간에서 기술적으로 동일한 아이디어를 가져와 오디오 영역에 적용하는 것이 매우 중요합니다.”라고 말했습니다. "Harmonai는 제가 시작한 연구실이며 Stability AI의 일부이며 기본적으로 이러한 생성 오디오 연구를 공개적으로 커뮤니티 노력으로 수행하는 방법입니다."

기술을 사용하여 기본 오디오 트랙을 생성하는 기능은 새로운 것이 아닙니다. 개인은 과거에 Evans가 '상징 생성' 기술이라고 부르는 것을 사용할 수 있었습니다. 그는 기호 생성이 일반적으로 예를 들어 드럼 롤과 같은 것을 나타낼 수 있는 MIDI(악기 디지털 인터페이스) 파일에서 작동한다고 설명했습니다. Stable Audio의 생성 AI 능력은 뭔가 다릅니다. 사용자는 MIDI 및 기호 생성에서 흔히 볼 수 있는 반복적인 음표를 뛰어넘는 새로운 음악을 만들 수 있습니다.

안정적인 오디오는 더 높은 품질의 출력을 위해 원시 오디오 샘플과 직접 작동합니다. 이 모델은 오디오 라이브러리 AudioSparks 의 800,000개 이상의 라이선스 음악에 대해 훈련되었습니다 .

“그렇게 많은 데이터가 있으면 매우 완전한 메타데이터가 됩니다.”라고 Evans는 말했습니다. "이러한 텍스트 기반 모델을 수행할 때 정말 어려운 일 중 하나는 고품질 오디오일 뿐만 아니라 해당 메타데이터도 포함하는 오디오 데이터를 확보하는 것입니다."

 

새로운 비틀즈 곡을 만들기 위해 Stable Audio를 사용할 것이라고 기대하지 마십시오

사용자가 이미지 생성 모델을 사용하여 수행하는 일반적인 작업 중 하나는 특정 아티스트의 스타일로 이미지를 만드는 것입니다. 그러나 Stable Audio의 경우 사용자는 AI 모델에 클래식 비틀즈 곡처럼 들리는 새로운 음악을 생성하도록 요청할 수 없습니다.

Newton-Rex는 "우리는 비틀즈에 대해 교육한 적이 없습니다."라고 말했습니다. "음악가를 위한 오디오 샘플 생성에서는 사람들이 원하는 것이 아닌 경향이 있었습니다."

Newton-Rex는 자신의 경험에 따르면 대부분의 음악가는 비틀즈나 다른 특정 음악 그룹의 스타일로 무언가를 요청하여 새로운 오디오 작품을 시작하기를 원하지 않고 오히려 더 창의적이기를 원한다고 언급했습니다.

텍스트에서 오디오 생성에 대한 올바른 프롬프트 학습
확산 모델로서 Evans는 Stable Audio 모델이 약 12억 개의 매개변수를 가지고 있으며 이는 이미지 생성을 위한 Stable Diffusion의 원래 릴리스와 대략 비슷한 수준이라고 말했습니다.

오디오 생성 프롬프트에 사용되는 텍스트 모델은 모두 Stability AI에 의해 구축되고 훈련되었습니다. Evans는 텍스트 모델이 CLAP(Contrastive Language Audio Pretraining)라는 기술을 사용하고 있다고 설명했습니다. Stable Audio 출시의 일환으로 Stability AI는 사용자가 생성하려는 오디오 파일 유형으로 연결되는 텍스트 프롬프트를 통해 사용자를 돕는 프롬프트 가이드도 출시하고 있습니다.

Stable Audio는 무료 및 월 12달러 Pro 요금제로 제공됩니다. 무료 버전에서는 최대 20초 트랙을 월 20세대까지 허용하는 반면, Pro 버전에서는 이를 500세대 및 90초 트랙으로 늘립니다.

 Newton-Rex는 “우리는 모든 사람에게 이것을 사용하고 실험할 수 있는 기회를 주고 싶습니다.”라고 말했습니다.

 

Stability는 Stable Audio 사용자가 자신의 작품으로 수익을 창출할 수 있지만 반드시 저작권을 가질 필요는 없다는 관점을 취합니다. 이는 다른 생성 AI 공급업체가 제안한 것보다 한 단계 부족한 것입니다. 지난주 마이크로소프트는 AI 도구의 출력물을 근거로 저작권 침해로 소송을 당하는 AI 도구의 상용 고객을 보호하기 위해 배상 범위를 확대하겠다고 발표했습니다.

Stable Audio의 Pro 등급에 대해 월 11.99달러를 지불하는 Stability AI 고객은 매월 최대 90초 길이의 상용화 가능한 트랙 500개를 생성할 수 있습니다. 무료 등급 사용자는 매달 20초 길이의 비상용 트랙 20개로 제한됩니다. 그리고 월간 활성 사용자가 100,000명 이상인 앱, 소프트웨어 또는 웹사이트에서 Stable Audio의 AI 생성 음악을 사용하려는 사용자는 기업 요금제에 가입해야 합니다.

Stable Audio 서비스 약관에서 Stability는 고객의 프롬프트와 노래는 물론 도구에서의 고객 활동과 같은 데이터를 향후 모델 및 서비스 개발을 포함한 다양한 목적으로 사용할 권리가 있음을 분명히 합니다. . 고객은 Stable Audio로 제작된 노래에 대해 지적 재산권 주장이 제기되는 경우 Stability를 면책하는 데 동의합니다.

하지만 Stable Audio가 훈련된 오디오 제작자가 월별 요금의 작은 부분이라도 볼 수 있는지 궁금할 것입니다. 결국 Stability는 여러 생성 AI 경쟁업체와 마찬가지로 예술가에게 보상하거나 알리지 않은 채 예술가 작업에 대한 훈련 모델을 놓고 뜨거운 물에 빠졌습니다.

Stability의 최신 이미지 생성 모델과 마찬가지로 Stable Audio에는 옵트아웃 메커니즘이 있습니다. 하지만 대부분의 책임은 AudioSparx에 있습니다. AudioSparx EVP Lee Johnson에 따르면 아티스트는 Stable Audio의 초기 릴리스를 위해 훈련 데이터 세트에서 자신의 작업을 제거할 수 있는 옵션이 있었으며 약 10%가 그렇게 하기로 선택했습니다.

존슨은 이메일을 통해 “우리는 아티스트의 참여 여부 결정을 지지하며 이들에게 유연성을 제공하게 되어 기쁘다”고 말했다.

AudioSparx와 Stability의 거래는 두 회사 간의 수익 공유를 포함하며, AudioSparx는 플랫폼의 음악가가 초기 교육에 참여하기로 선택하거나 Stable Audio의 향후 버전 교육에 도움을 주기로 결정한 경우 Stable Audio에서 생성된 이익을 공유할 수 있도록 합니다. 이는 Adobe 및 Shutterstock 이 생성 AI 도구를 사용하여 추구 하는 모델과 유사 하지만, 거래 세부 사항에 대한 안정성은 나오지 않아 아티스트가 기여에 대해 얼마나 많은 지불을 받을 수 있는지는 알려지지 않았습니다.

Stability CEO Emad Mostaque의 과장, 모호한 주장, 노골적인 잘못된 관리 성향을 고려하면 예술가들은 조심해야 할 이유가 있습니다.

지난 4월 Semafor는  Stability AI가 현금을 소진하고 있다고 보고하여 경영진이 매출을 늘리기 위한 노력에 박차를 가했습니다. Forbes에 따르면 회사는 임금과 급여세를 반복적으로 지불하지 않거나 완전히 지불하지 않아 Stability가 모델 훈련을 위해 컴퓨팅에 사용하는 AWS가 GPU 인스턴스에 대한 Stability의 액세스를 취소하겠다고 위협했습니다.

Stability AI는 최근 전환사채(예: 자기자본으로 전환되는 부채)를 통해 2,500만 달러를 모금 하여 총 모금 금액이 1억 2,500만 달러가 넘었습니다. 그러나 더 높은 가치로 새로운 자금 조달을 마감하지 않았습니다. 이 스타트업의 마지막 가치는 10억 달러로 평가되었습니다. 안정성은 완고하게 낮은 수익과 높은 연소율에도 불구하고 향후 몇 달 내에 4배를 추구한다고 합니다.

Stable Audio가 회사의 운명을 바꿀 수 있을까요? 아마도. 그러나 안정성이 극복해야 할 장애물을 고려하면 다소 긴 가능성이 있다고 말하는 것이 안전합니다.

 

택스트-이미지 생성기 Stable Diffusion의 개발사인 Stability AI가 최신 제품인 Stable Audio를 공개했습니다 . Stable Audio를 사용하면 간단한 웹 인터페이스를 통해 AI 기술을 사용하여 독창적인 음악과 음향 효과를 생성할 수 있습니다.

신제품은 오디오 생성 및 음악 제작으로의 Stability AI의 확장을 나타냅니다. Stability AI CEO Emad Mostaque의 성명에 따르면 Stable Audio는 새로운 콘텐츠 생성을 지원하는 AI 도구를 제공함으로써 "음악 애호가와 창의적인 전문가에게 역량을 부여"하는 것을 목표로 합니다.

 

테스트에서 Stable Audio는 사용 가능한 가장 인상적인 생성 오디오 솔루션 중 하나로 돋보였습니다. 프롬프트에 맞춰 고품질의 상업적으로 실행 가능한 원본 작곡을 제작할 수 있습니다. 이는 AI 생성 오디오 콘텐츠의 잠재적인 판도를 바꿀 수 있음을 나타냅니다.

중요한 것은 Stability AI가 개방적이고 접근 가능한 AI 개발에 대한 약속에 맞춰 다양한 데이터에 대해 별도로 훈련된 오픈 소스 모델을 출시할 것이라고 밝혔습니다.

초기 오디오 샘플은 사용자 프롬프트에 맞춰 다양한 음악 구성을 생성할 수 있는 Stable Audio의 잠재력을 보여줍니다. 예를 들어, "해변에서 휴식을 취하는 부드러운 레게 음악"을 요청하면 분위기 있고 감정을 불러일으키는 작품이 탄생했습니다.

 

이 제품은 다양한 악기, 단일 악기나 악기 그룹을 특징으로 하는 개별 줄기, 음향 효과를 포괄하는 완전한 음악 오디오를 생성할 수 있습니다. Stability AI는 Stable Audio를 최대한 활용하기 위한 예시 프롬프트와 추가 권장 사항이 포함된 사용자 가이드를 제공했습니다 .

 

Stable Audio의 AI 아키텍처는 프로덕션 음악 라이브러리인 AudioSparx 에서 제공하는 음악 및 메타데이터 데이터 세트를 기반으로 훈련된 잠재 확산 모델입니다. 이는 변형 자동 인코더, 텍스트 인코더 및 조건 확산 모델로 구성됩니다. 더 빠른 생성을 위해 오디오를 압축된 잠재 표현으로 압축합니다.

이 모델은 CLAP 모델로 인코딩된 텍스트 프롬프트와 시작 시간 및 총 길이를 나타내는 타이밍 임베딩을 기반으로 조건이 지정됩니다. 이를 통해 생성된 오디오의 길이와 내용을 제어할 수 있습니다. 확산 모델 자체는 시간 단계에 따라 잠재 오디오의 잡음을 제거하는 907M 매개변수 U-Net입니다. Stability AI는 이 아키텍처를 통해 NVIDIA A100 GPU에서 실행될 때 1초 이내에 44.1kHz 샘플링 속도로 95초의 스테레오 오디오를 렌더링할 수 있다고 지적합니다.

Stable Audio는 무료 및 유료 구독 옵션을 모두 제공합니다. 이 회사는 무료 버전을 통해 사용자가 음악 장르, 악기, 분위기, 템포 및 기타 매개변수를 설명하는 텍스트 프롬프트를 제공하여 매월 20개의 45초 오디오 샘플을 생성할 수 있다고 밝혔습니다. "Pro" 구독을 이용하면 상업적으로 사용할 수 있는 고품질 오디오를 90초 동안 다운로드할 수 있습니다.

 

그러나 AI 생성 콘텐츠의 소유권과 사용 권한에 대한 의문은 여전히 ​​남아 있습니다. Stable Audio의 유료 라이센스는 상업적 사용을 허용하지만 여전히 사용 제한이 있습니다. 회사의 서비스 약관에는 다음과 같이 명시되어 있습니다.

 

서비스에서 생성된 콘텐츠가 포함된 상용 제품의 사용량이 이전 달에 월간 활성 사용자가 100,000명을 초과하는 경우, 귀하는 당사에 엔터프라이즈 등급 라이선스를 요청해야 하며, 당사는 이를 단독 재량에 따라 귀하에게 부여할 수 있습니다. 당사가 귀하에게 그러한 권리를 명시적으로 부여하지 않는 한, 귀하는 서비스, 이전에 생성된 콘텐츠 또는 새로운 콘텐츠를 계속 사용할 권한이 없습니다. 

 

 

오디오 생성 시장에 진입하는 것은 업계 표준을 재조정할 수 있는 새로운 도구 세트를 제공하는 Stability AI의 전략적 움직임입니다. 예상되는 오픈 소스 모델은 또 다른 파괴적인 요소가 될 수 있으며, 창의적인 오디오 스펙트럼 전반에 걸쳐 액세스를 확대하고 혁신을 촉진할 수 있습니다. 안정적인 오디오는 이제 www.stableaudio.com 에서 사용할 수 있습니다 . Stability AI는 사용자가 추가 개발을 돕기 위해 피드백을 제공하도록 권장합니다.

댓글