티스토리 뷰
크기는 모델이 실행될 수 있는 위치에 영향을 미치기 때문에 LLM(대형 언어 모델)의 경우 확실히 중요합니다.
이미지 생성 AI 기술에 대한 안정적인 텍스트 확산으로 가장 잘 알려진 공급업체인 Stability AI 는 오늘 Stable LM 2 1.6B의 데뷔와 함께 가장 작은 모델 중 하나를 출시했습니다. Stable LM은 Stability AI가 2023년 4월에 처음 출시한 텍스트 콘텐츠 생성 LLM으로 30억 및 70억 매개변수 모델을 모두 갖추고 있습니다. 새로운 StableLM 모델은 실제로 Stability AI가 이번 주 초 출시한 Stable Code 3B 에 이어 2024년에 출시한 두 번째 모델입니다 .
작지만 강력한 새로운 Stable LM 모델은 영어, 스페인어, 독일어, 이탈리아어, 프랑스어, 포르투갈어, 네덜란드어 등 7개 언어의 다국어 데이터를 통합하는 생성적 AI 생태계에 장벽을 낮추고 더 많은 개발자가 참여할 수 있도록 하는 것을 목표로 합니다. 이 모델은 언어 모델링의 최신 알고리즘 발전을 활용하여 Stability AI가 원하는 속도와 성능 간의 최적의 균형을 달성합니다.
Stability AI의 언어 팀 책임자인 Carlos Riquelme는 VentureBeat에 “일반적으로 비슷한 훈련 레시피를 사용하여 유사한 데이터로 훈련된 대규모 모델이 작은 모델보다 더 나은 성능을 보이는 경향이 있습니다.”라고 말했습니다. "그러나 시간이 지남에 따라 새로운 모델이 더 나은 알고리즘을 구현하고 더 많은 고품질 데이터에 대해 교육을 받게 되면서 최근의 소형 모델이 기존의 대형 모델보다 성능이 뛰어난 경우가 종종 있습니다."
Stable LM을 사용하면 더 작은 것이 더 나은 이유(이번에는)
Stability AI에 따르면 이 모델은 Microsoft의 Phi-2 (2.7B), TinyLlama 1.1B 및 Falcon 1B 를 포함한 대부분의 벤치마크에서 20억 개 미만의 매개변수를 사용하여 다른 소규모 언어 모델보다 성능이 뛰어납니다 .
새로운 소형 Stable LM은 Stability AI의 이전 Stable LM 3B 모델을 포함하여 일부 대형 모델을 능가할 수도 있습니다.
Riquelme은 "Stable LM 2 1.6B는 몇 달 전에 훈련된 일부 대형 모델보다 더 나은 성능을 발휘합니다."라고 말했습니다. "컴퓨터, 텔레비전, 마이크로칩에 대해 생각해 보면 대략 비슷한 추세를 볼 수 있습니다. 시간이 지남에 따라 더 작아지고, 더 얇아지고, 더 좋아졌습니다."
분명히 말하면 더 작은 Stable LM 2 1.6B는 크기로 인해 몇 가지 단점이 있습니다. 새 모델 출시 시 Stability AI는 "... 작고 저용량 언어 모델의 특성으로 인해 Stable LM 2 1.6B는 높은 환각률이나 잠재적인 독성 언어와 같은 일반적인 문제를 유사하게 나타낼 수 있습니다."라고 경고합니다.
투명성과 더 많은 데이터가 새로운 모델 출시의 핵심입니다
더 작고 더 강력한 LLM 옵션을 향한 것은 Stability AI가 지난 몇 달 동안 사용해 온 것입니다.
2023년 12월에는 StableLM Zephyr 3B 모델이 출시되어 지난 4월의 초기 반복보다 작은 크기로 StableLM에 더 많은 성능을 제공했습니다.
Riquelme은 새로운 Stable LM 2 모델이 영어(스페인어, 독일어, 이탈리아어, 프랑스어, 포르투갈어, 네덜란드어) 외에 6개 언어로 된 다국어 문서를 포함하여 더 많은 데이터에 대해 훈련되었다고 설명했습니다. Riquelme이 강조한 또 다른 흥미로운 측면은 훈련 중에 데이터가 모델에 표시되는 순서입니다. 그는 다양한 훈련 단계에서 다양한 유형의 데이터에 집중하는 것이 도움이 될 수 있다고 언급했습니다.
한 단계 더 나아가 Stability AI는 사전 훈련되고 미세 조정된 옵션은 물론 연구원들이 "...사전 훈련 쿨다운 전 마지막 모델 체크포인트"라고 설명하는 형식을 통해 새로운 모델을 사용할 수 있도록 만들고 있습니다.
"우리의 목표는 개별 개발자가 현재 모델을 기반으로 혁신, 변형 및 구축할 수 있는 더 많은 도구와 아티팩트를 제공하는 것입니다."라고 Riquelme은 말했습니다. "여기서 우리는 사람들이 가지고 놀 수 있는 특정한 반쯤 익은 모델을 제공하고 있습니다."
Riquelme은 훈련 중에 모델이 순차적으로 업데이트되고 성능이 향상된다고 설명했습니다. 이 시나리오에서 첫 번째 모델은 아무것도 모르는 반면, 마지막 모델은 데이터의 대부분의 측면을 소비하고 학습했습니다. 동시에 Riquelme은 모델이 학습을 마무리해야 하므로 훈련이 끝날 무렵 모델의 유연성이 떨어질 수 있다고 말했습니다.
"우리는 훈련의 마지막 단계를 시작하기 직전에 현재 형식으로 모델을 제공하기로 결정했습니다. 그러면 사람들이 사용하기를 원하는 다른 작업이나 데이터 세트에 모델을 특화하는 것이 더 쉽기를 바랍니다."라고 그는 말했습니다. "우리는 이것이 잘 작동할지는 확신할 수 없지만, 놀랍고 놀라운 방식으로 새로운 도구와 모델을 활용할 수 있는 사람들의 능력을 정말로 믿습니다."
'스테이블 디퓨전' 카테고리의 다른 글
페이스 믹서 확산 (0) | 2024.01.24 |
---|---|
AI로 옷을 갈아입는 방법 (Inpaint Anything) (0) | 2024.01.15 |
FreeU: 더 나은 AI 이미지를 무료로 제공 (0) | 2023.12.13 |
SDXL Turbo 소개: 실시간 텍스트 이미지 생성 모델 (0) | 2023.11.30 |
Stability AI, Stable Video Diffusion 출시 (0) | 2023.11.26 |