https://github.com/SayaSS/vits-finetuning

오직 일본어만 지원하는데 1000스텝만으로 쓸만한 음성이 나온다고 함


https://www.bilibili.com/video/BV1ZY4y1m7FW

아로나 음성을 배치 사이즈 16으로 1,000스텝 학습한 결과물


3090 기준 배치 사이즈 32로 70,000스텝 학습하는데 18시간 걸린걸 산술적으로만 계산해보면

3090 으로 단 30분이면 위에 아로나 음성급 TTS를 만들 수 있다는거

A100이면 15분으로 가능할 것으로 추측됨

해당 레포에서 제공하는 코랩 노트북이 있는데 코랩 T4 쓰면 한 2시간 걸리려나


한국어도 G_0 D_0 파일을 다른 학습 모델로 교체해서 학습시키면 같은 방법으로 학습이 가능할 것으로 추측됨.


# japanese_cleaners2

_pad        = '_'

_punctuation = ',.!?-~…'

_letters = 'AEINOQUabdefghijkmnoprstuvwyzʃʧʦ↓↑ '


# korean_cleaners

_pad        = '_'

_punctuation = ',.!?…~'

_letters = 'ㄱㄴㄷㄹㅁㅂㅅㅇㅈㅊㅋㅌㅍㅎㄲㄸㅃㅆㅉㅏㅓㅗㅜㅡㅣㅐㅔ '


한국어의 심볼 수가 일본어보다 더 적어서 한국어는 사전학습모델을 사용하면 동일 시간 학습 기준 더 우수한 결과를 내놓을 것으로 추측됨.


남의 거 돚거해서 뭔가 만드는거에 있어서는 중국만큼 발전이 빠른 나라가 없는 것 같음.