논문: https://arxiv.org/abs/2307.16430


깃헙(미완): https://github.com/p0p4k/vits2_pytorch



논문 어려워서 무슨 말인지 하나도 모르겠음


어떤 외국인이

"Stochastic Duration Predictor를 GAN 기반으로하고, 정규화 흐름에 transformer를 도입, 텍스트 인코더에 화자 조건 추가"

라고 요약해주긴 했는데 여전히 무슨 뜻인지 모르겠음...