Stable Diffusion

최근 수정 시각: 2023-05-29 09:17:43

1. 개요2. 관련 용어3. SD 봇의 사용

3.1. 리스AI에서 SD 봇 사용하기3.2. 실리태번AI에서 SD 봇 사용하기

4. 같이 보기

4.1. 관련 문서

1. 개요 [편집]

스테이블 디퓨전은 Stability AI가 2022년 8월 22일 출시한 이미지 생성형 AI이며, 상업적 사용이 가능한 오픈소스이다.
스테이블 디퓨전을 보통 줄여서 SD라고 부른다. 따라서 리스AI의 개발자가 후술할 기능을 SD 봇이라고 명명하였다.

스테이블 디퓨전의 출시로 로컬 AI와 오픈소스 AI에 대한 관심과 개발이 증가했으며, 이를 두고 'Stable Diffusion Moment[1]'라고도 부른다.
현재 2.1 버전까지 공개되었으나, 여러가지 이유[2]로 대부분의 사용자는 1.x 버전에 머물러 있다.[3]

스스로 그림을 그릴 수 없는 봇 제작자들이 저작권 문제 없는 봇 이미지를 생성하기 위해서 널리 사용하고 있다.
또한 봇 제작자들 중에서 스테이블 디퓨전을 곧잘 다룰 줄 아는 사람들은 하나의 캐릭터의 외모를 고정하고 다양한 표정과 자세, 의상 등을 표현하는 감정 봇을 제작하기도 한다.
리스AI에서 스테이블 디퓨전을 이용한 봇 이미지 표현 방식을 지원을 공식 발표하였으며 0.5.6 버전부터 특수한 방법으로 접근 가능한 더미 기능으로 포함되었으며 0.6 버전에서 정식으로 사용 가능하게 업데이트 되었다. 실리태번AI도 SD 봇 기능이 존재하지만, 두 프론트엔드에서 서로 호환되지는 않는다.

이 문서에서는 스테이블 디퓨전 자체에 대한 모든 설명을 담기보다 AI 채팅에 관련된 부분을 위주로 설명한다.

2. 관련 용어 [편집]

체크포인트 모델(checkpoint model) : AI 채팅 분야에서 GPT, Claude 등의 AI 언어 모델과 같다.[4] 또한, 모델이 달라지면 그림체, 화풍, 그릴 수 있는 대상이 크게 달라진다. 사용자들은 수많은 모델을 일반적으로 그림(씹덕) 모델, 반실사 모델, 실사 모델로 나눈다.[5]
샘플링(sampling), 샘플러(sampler) : 모델이 이미지를 생성하는 과정, 또는 그 과정을 처리하는 일종의 처리 기능.
시드(Seed) : 생성되는 이미지의 프롬프트와 시드가 같으면 일반적으로 같은 이미지가 생성된다.[6]
CLIP, CLIP skip : 스테이블 디퓨전이 자연어를 이해하기 위해 사용하는 것은 CLIP이라는 텍스트-이미지 예측 모델이며, 이를 통해서 스테이블 디퓨전의 그림 모델이 자연어를 이해하고 이미지를 생성한다. Clip skip의 자세한 내용은 해당 게시물을 참고한다. CLIP skip의 값에 따라 이미지가 달라지기 때문에 반드시 알아두어야 하는 개념인데, 특별한 일이 없다면 값을 2로 고정하고 사용하면 된다.[7]
LoRA(로라) : AI의 파인튜닝 방식 중에 하나로 현재 가장 널리 쓰이는 스테이블 디퓨전의 파인 튜닝 방식 중에 하나이다.
VAE : 이미지를 생성할 때, 색각 영역을 보조하는 모델이다. VAE를 따로 내려받아 지정하지 않으면 이미지가 뿌옇고 흐리거나 오래된 그림처럼 물이 빠진 것처럼 생성된다.
WebUI(웹UI) : AI 채팅 분야에서 TavernAI와 같은 입지를 가지는 프론트엔드이다. TavernAI가 SillyTavernAI와 같은 독립된 포크 모델이 존재하는 것처럼, 여러 종류의 WebUI가 존재하지만 가장 흔하게 쓰이는 것은 Automatic111의 WebUI이며, 그의 닉네임의 앞부분을 따서 자동좌라고 부른다. RisuAI는 Automacit111의 WebUI를 통해서만 이미지를 생성할 수 있다.

3. SD 봇의 사용 [편집]

이 단락에서는 SD 봇을 사용하여 프론트엔드에서 이미지를 생성하는 방법을 설명한다.

3.1. 리스AI에서 SD 봇 사용하기 [편집]

해당 게시물 참고.

3.2. 실리태번AI에서 SD 봇 사용하기 [편집]

작성 필요.

4. 같이 보기 [편집]

4.1. 관련 문서 [편집]

감정 봇 : SD 봇의 모태가 되는 기능으로, 보조 언어 모델을 통하여 최근의 메시지를 분석하여 캐릭터의 감정을 추출하고, 그것을 통해 미리 완성된 이미지 중에 하나를 출력하는 실리 태번 AI의 기능이다. 리스AI, 미쿠 등의 프론트엔드에서도 이 기능을 지원한다.

[1] 사이먼 윌슨이라는 독립 AI 연구가의 발언이 확대되어 여러 기사에 쓰이게 되었다.[2] 2.x 버전 이후 좋아진 점이 없는 것은 아니나, 1.x 버전에 비해서 화풍 학습, NSFW 표현력 등이 너프 먹어서 수많은 사용자들에게 버림 받고 는 것이 현실이다.[3] 이는 사실 스테이블 디퓨전의 라이선스에 명시된 규약을 위반하는 것이다.
스테이블 디퓨전의 라이센스인 CreativeML Open RAIL-M의 IV장 7항에 의하면 사용자는 최신 버전의 스테이블 디퓨전 사용을 위해서 합당한 노력을 기울여야 한다고 명시하고 있다.
라이센스의 한국어 번역본은 AI 그림 채널의 해당 게시물을 참고.[4] 스테이블 디퓨전이 오픈소스이자 로컬 모델이기 때문에, AI 채팅 분야와 다르게 AI 그림 분야는 모델의 선택지가 매우 많다.[5] 모델의 종류는 매우 많지만 거의 대부분의 모델이 노벨AI의 유출본을 이용하여 파인 튜닝된 것이다.[6] 이는 그래픽 카드 아키텍쳐, CLIP Skip 값 등에 영향 받아서 무조건 동일하지는 않지만, 같은 환경에서는 프롬프트와 시드가 동일하면 항상 거의 같은 이미지가 출력된다.[7] Stalbe Diffusion이 CLIP의 값을 2로 두고 학습되었기 때문이라고 한다.