StoryDiffusion: 장거리 이미지 및 비디오 생성을 위한 일관된 Self-Attention의 공식 구현입니다.

? 주요 기능:

StoryDiffusion은 일관된 이미지와 비디오를 생성하여 마법 같은 이야기를 만들 수 있습니다. 우리의 작업은 주로 두 부분으로 구성됩니다:

1. 장거리 시퀀스에 걸쳐 캐릭터 일관성 있는 이미지 생성을 위한 일관된 self-attention입니다. 이는 hot-pluggable하며 모든 SD1.5 및 SDXL 기반 이미지 diffusion 모델과 호환됩니다. 현재 구현에서는 사용자가 일관된 self-attention 모듈에 대해 최소 3개의 텍스트 prompt를 제공해야 합니다. 더 나은 레이아웃 배치를 위해 최소 5 - 6개의 텍스트 prompt를 권장합니다.

2. 장거리 비디오 생성을 위한 motion predictor로, 압축된 이미지 의미 공간에서 Condition Images 사이의 motion을 예측하여 더 큰 motion 예측을 달성합니다.


OpenAI Sora와는 달리 오픈소스로 공개되서 매우 장점이 있음


현재는 코믹 생성 소스코드까지만 공개돼 있고 

곧 비디오 생성 모델 소스코드 및 pretrain된 모델 공개 예정인듯


기존 SD와 호환된다 하니 좋네