좌우 음원이 다름. 왼쪽은 음역대가 다양한 노래 보컬을 분리해서 학습시킨 모델 o, 오른쪽은 말하는 음성만을 이용해 학습시킨 모델 m


둘 간의 차이가 크지 않은거 보면 diff-svc 학습할 때 그냥 음성으로 해도 좋을 것 같음.


그냥 레퍼런스 보컬과 데이터셋만 깔끔하게 작업된거면 데이터셋 음역대와 무관하게 A급 결과물 나오는 듯 함