vits 파인튜닝 하는것처럼


데이터셋 적은 애니캐들은 애니에서 목소리 따오고 깔끔한거만 선별하면 데이터셋 길어야 5분가량이라 발음뭉개지고 특정음 뭉개지는데


같은성우에 게임캐릭터 대량데이터셋 있으면 그거 모델이랑 비율 적당히 병합하면 
음색은 남으면서도 발음 뭉개지는게 거의 해결된 모델이 나옵니다.



그리고 아예 다른 성우일때도 병합했을때 음색 손상 거의없이 발음만 살아나는 경우도 있어서 .. 숨겨진 특제레시피 찾는 재미가 있네요

초고품질 게임음성모델 여러개 가지고있으면 다른 모델 만드는것도 상당히 수월해지네요