티스토리 뷰
DALL·E 3은 ChatGPT와 함께 사용할 수 있는 텍스트-이미지 AI 모델입니다.
이번 포스팅에서는 DALL·E 3와 Stable Diffusion XL을 비교하여 각 모델의 장점을 살펴보겠습니다.
DALL·E 3란 무엇입니까?
DALL·E 3는 텍스트 설명을 이미지로 변환하는 텍스트-이미지 생성 AI입니다.
훈련 및 모델 아키텍처는 James Betker와 동료가 쓴 " 더 나은 캡션을 통한 이미지 생성 개선 " 이라는 논문에 설명되어 있습니다.
DALL·E 3의 주요 개선 사항 은 프롬프트를 밀접하게 따르는 이미지를 생성하는 기능입니다.
저자는 훈련 이미지의 캡션에 잡음이 많기 때문에 현재의 텍스트-이미지 모델이 프롬프트를 잘 따르지 않는다는 것을 발견했습니다. 캡션 모델에 의해 생성된 설명이 풍부한 캡션을 사용함으로써 DALL·E 3의 프롬프트 따르기 능력을 크게 향상시킬 수 있었습니다.
DALL·E 3에는 이전 버전에 비해 공개되지 않은 다른 개선 사항이 있습니다. 따라서 훈련 시 더 나은 캡션을 사용한다고 해서 더 나은 성과가 나오는 것은 아닙니다.
DALL·E 3를 어떻게 사용하나요?
DALL·E 3를 사용하려면 ChatGPT Plus 에 가입해야 합니다 .
DALE3을 사용하려면 다음 단계를 따르세요.
ChatGPT를 엽니다 .
상단의 GPT-4 버튼을 클릭 하고 DALL·E 3을 선택합니다 .
3. 이미지에 대한 설명을 입력합니다.
ChatGPT는 설명을 수정하고 두 가지 다른 프롬프트로 확장하며 DALL·E 3으로 생성된 이미지를 표시합니다.
그런 다음 대화식으로 ChatGPT에 계속 수정하려는 항목을 알려줍니다.
프롬프트를 직접 수정할 수는 없습니다.
ChatGPT는 귀하와 DALLE 3 사이의 중개자 역할을 합니다.
프롬프트 외에도 ChatGPT에 이미지의 가로 세로 비율을 변경하도록 요청할 수도 있습니다.
Stable Diffusion이란 무엇입니까?
DALL·E 3과 유사하게 Stable Diffusion은 텍스트-이미지 생성 AI 모델입니다.
더 작은 잠재 공간에서 이미지 합성이 일어나는 잠재 확산 모델 입니다.
크기가 더 작고 개인용 컴퓨터에서 실행할 수 있다는 장점이 있습니다.
Stable Diffusion를 사용하는 방법은 무엇입니까?
Stable Diffusion을 사용하는 방법에는 여러 가지가 있습니다.
무료 로컬 옵션의 경우 AUTOMATIC1111 Stable Diffusion WebUI를 사용할 수 있습니다.
이 소프트웨어는 Windows , Mac 또는 Google Colab 에서 사용할 수 있습니다.
Stable Diffusion을 처음 사용하는 경우 빠른 시작 가이드를 확인하세요.
AUTOMATIC1111 을 처음 사용하는 경우 AUTOMATIC1111 가이드를 확인하세요.
DALL·E 3 대 Stable Diffusion XL
이번 섹션에서는 DALL·E 3와 Stable Diffusion XL 1.0을 비교해보겠습니다 .
프롬프트 팔로우
DALL·E 3의 주요 개선점은 신속한 대응 능력입니다.
내 테스트에서 DALL·E 3는 프롬프트와 훨씬 더 가깝게 일치하는 이미지를 넓은 차이로 생성했습니다.
이는 연구 논문과 일치합니다.
테스트 1: 이중나선
An aerial perspective of a vast forest landscape that forms a DNA double helix pattern, with rivers and clearings symbolizing its features.
![]() |
![]() |
DALL·E 3 Stable Diffusion XL
Stable Diffusion XL은 이중 나선 패턴을 표시하지 않습니다.
이중나선 패턴은 'DNA 이중나선 패턴'의 키워드 가중치가 1.2로 높아지면서 나타나기 시작하는데, 블렌딩이 수준 이하이다.
테스트 2: 핵전쟁
A photo of a young boy and girl holding hands, witnessing the aftermath of an atomic bomb detonation from an elevated vantage point.
![]() |
![]() |
DALL·E 3 Stable Diffusion XL
두 이미지 모두 프롬프트에 충실하지만 부부가 프롬프트에서 지정하는 높은 시점에 서 있고 원자폭탄이 대중의 상상에 더 가깝기 때문에 DALL·E 3를 더 정확하게 평가하고 싶습니다.
텍스트 렌더링
Stable Diffusion XL은 텍스트 렌더링 에 있어서 비약적인 발전을 나타내지만 제 생각에는 DALL·E 3보다 성능이 떨어집니다.
테스트 1: 빌보드
An illustration of a vibrant billboard sign emphasizing the message “Stable Diffusion XL is better than DALLE 3” with radiant light beams.
![]() |
![]() |
DALL·E 3 Stable Diffusion XL
테스트 2: 하이킹 표시
A female hiker triumphantly reaching the summit with a wooden sign reading “Get High”.
![]() |
![]() |
DALL·E 3 Stable Diffusion XL
Stable Diffusion XL은 짧은 문구에 더 잘 어울립니다.
이는 누구에게도 놀라운 일이 아닙니다. 하지만 나는 여전히 DALLE 3를 더 좋게 평가하고 싶습니다.
스타일
Stable Diffusion은 다양한 스타일을 렌더링하는데 장점이 있습니다.
사실적인 이미지를 위해 미세 조정된 커뮤니티 개발 모델을 사용할 수 있다는 것은 말할 것도 없고 DALLE 3보다 더 사실적인 사진을 생성합니다 .
![]() |
![]() |
DALL·E 3 Stable Diffusion XL
Stable Diffusion 기본 모델이 성능을 발휘하지 못하더라도 미세 조정된 모델을 찾아 원하는 스타일을 렌더링할 수 있을 것입니다.
인상파 그림 스타일에 대한 또 다른 비교는 다음과 같습니다.
![]() |
![]() |
DALL·E 3 Stable Diffusion XL
인페인팅 및 아웃페인팅
인페인팅은 다른 모든 것을 동일하게 유지하면서 이미지의 작은 부분을 재생성합니다.
아웃페인팅은 원본 이미지를 유지하면서 이미지를 확장합니다.
글을 쓰는 시점에서 DALLE 3은 두 가지를 모두 수행할 수 없습니다.
예를 들어, DALLE 3에 이미지를 초과 페인팅하도록 요청하면 이미지가 완전히 변경됩니다.
Stable Diffusion은 두 가지를 모두 수행할 수 있으며 여기서는 확실히 승자입니다.
Prompting
DALLE 3의 프롬프트는 직접 제어할 수 없습니다.
ChatGPT에 무엇을 그리고 싶은지 알려주면 프롬프트가 편집됩니다.
이것은 좋은 점이기도 하고 나쁜 점이기도 합니다.
신속한 엔지니어링을 ChatGPT에 위임하기 때문에 초보자에게 좋습니다.
프롬프트를 미세 조정하는 능력을 빼앗기 때문에 전문가 사용자에게는 좋지 않습니다.
ControlNet
ControlNet 이 발명된 이후로 안정적인 확산은 동일하지 않았습니다.
ControlNet 덕분에 포즈, 구도, 색상을 훔칠 수 있습니다.
물론 DALLE 3에서는 이들 중 어느 것도 사용할 수 없습니다.
결론
요약하자면 DALLE 3는 Stable Diffusion보다 프롬프트를 훨씬 더 잘 따르는 이미지를 생성합니다.
이는 텍스트 렌더링에도 적용됩니다. ChatGPT와 통합되어 렌더링 전 프롬프트를 개선합니다.
이는 처음 시도할 때 사용 가능한 이미지를 얻을 가능성이 높다는 것을 의미합니다.
적어도 현재로서는 DALLE 3의 단점은 이미지를 추가로 다이얼링할 수 없다는 것입니다.
인페인팅, 아웃페인팅 및 ControlNet을 지원하지 않습니다.
단일 모델이기 때문에 Stable Diffusion보다 가능한 스타일이 더 제한적입니다.
DALLE 3는 사용 편의성이 뛰어납니다.
나는 그것이 실용적이라고 생각했습니다.
Stable Diffusion 및 MidJourney에 비해 가장 짧은 시간에 필요한 이미지를 생성할 수 있습니다.
반면에 Stable Diffusion은 완벽해질 때까지 이미지의 모든 측면을 다듬는 기능을 갖춘 예술적 창작과 재미를 위한 것입니다.
ChatGPT 중개자는 프롬프트를 직접 수정할 수 없기 때문에 전문 사용자가 이미지를 미세 조정하는 것을 어렵게 만듭니다.
이러한 제한은 책임 문제로 인해 발생할 수 있습니다.
ChatGPT는 프롬프트에서 부적절한 콘텐츠를 제거하기 위해 추가 안전 필터를 통합합니다.
결과적으로 사용자는 AI 모델을 완전히 자유롭게 사용할 수 없습니다.
아마도 가장 큰 차이점은 비즈니스 모델에 있을 것입니다.
DALLE 3은 폐쇄적이고 독점적인 서비스입니다.
Stable Diffusion은 다운로드 가능한 오픈 소스 모델입니다.
Stable Diffusion의 힘은 수천 명의 사용자가 수백만 시간을 들여 도구를 만들고 미세 조정하는 데 있습니다.
전 세계 정부와 대기업은 오픈 소스 AI 모델을 조기에 규제하는 데 열중하고 있습니다.
이러한 노력으로 인해 Civitai에서 수천 개의 맞춤형 모델과 ControlNet 과 같은 놀라운 도구를 탄생시킨 오픈 소스 개발이 억제될 가능성이 높습니다.
안정적인 확산 개선
DALLE 3의 성공으로 인해 빠른 개선은 매우 정확한 캡션으로 Stable Diffusion XL 모델을 미세 조정하는 것입니다.
이렇게 하면 Stable Diffusion의 기본 성능이 크게 향상되어 텍스트-이미지 생성기로 더욱 유용해집니다.
개선된 기본 모델이 학습되면 Loras 또는 미세 조정된 모델을 사용하여 다양한 스타일의 매우 정확한 이미지를 생성할 수 있습니다.
Stable Diffusion과 DALL·E 3를 함께 사용
물론 Stable Diffusion과 DALLE 3는 상호 배타적이지 않습니다. 우리는 그것들의 장점을 함께 사용할 수 있습니다.
인페인팅
먼저 DALLE 3에서 이미지를 생성하고 인페인팅에 Stable Diffusion을 사용할 수 있습니다.
이는 DALLE 3의 인페인트 불가능을 보완합니다.
ControlNet용 참조 이미지
Stable Diffusion을 사용하여 이미지를 생성하는 데 문제가 있는 경우 DALLE 3을 사용해 볼 수 있습니다.
그런 다음 해당 이미지를 ControlNet Canny 에 대한 참조로 사용하여 구성을 훔치는 등의 작업을 수행할 수 있습니다.
'스테이블 디퓨전' 카테고리의 다른 글
Stable Video Diffusion 소개 (0) | 2023.11.22 |
---|---|
인페인팅: 완전한 가이드 (0) | 2023.11.12 |
Stable Diffusion에서 이미지 프롬프트를 사용하는 방법 (0) | 2023.10.29 |
Stable Diffusion의 용어 (0) | 2023.10.22 |
Stable Diffusion에 대한 이미지에서 프롬프트를 얻는 방법 (0) | 2023.10.19 |