오늘 소개할 Lumina-T2I 모델은 최근 체크포인트가 공개된 t2i 모델로서 SD3처럼 DiT 모델이다.


Lumina-T2I는 5B라는 거대한 모델 용량이 인상적이며, 텍스트 인코더를 무려 Llama-2-7b-hf를 사용한다. 그래서 총 12B라는 엄청난 용량 덕분에 기본 세팅으로는 24GB VRAM에서 돌리는것은 불가능하다.


그래도 demo.py의 소스코드를 손보면서 bitsandbytes 4bit와 공유 VRAM의 힘으로 16GB VRAM으로 돌리는데 성공했다. 


순정 소스코드로는 bitsandbytes 4bit를 잘 적용하면 24GB VRAM에서 돌릴 수 있을것이며, 본격적인 커뮤니티 최적화가 진행된다면 더 낮은 VRAM에서 돌릴 수 있을것이다.


기본 세팅에서 78초라는 엄청난 생성 속도를 자랑한다. 스텝을 20 정도로 세팅하면 40초 정도로 줄어들 수 있음.


그런데 텍스트가 제대로 생성되지 않을 정도로 성능이 좋지 않음. bitsandbytes 4bit 문제일 수도 있지만 나약한 4080s 컴퓨터에서는 bitsandbytes 8bit가 안돌아가서 방법이 없음. 


하츠네 미쿠가 어떤 머리색상인지 알지 못하고


검열 모델로서 nsfw 관련 프롬프트도 작동되지 않음. 


아참 이것도 중국산 모델이라서 천안문이 제대로 나오지 않음.


이걸로 뭘 할 수 있는지부터 모르겠음. 중국산 LLM은 그럭저럭 쓸만한데 중국산 T2I 모델은 하나같이 왜 이럴까...