fishaudio github repo clone해서 한국어에 맞게 코드 수정후 학습 진행중.


Duration predictor를 adversarial training하는 과정에서 Discriminator와 Duration Predictor의 성능차이가 너무 심한 상태.

D(real) 은 1로 수렴하고 D(G()) 는 0으로 수렴함. (여기서 G는 Duration Predictor)


생각을 해보니 학습 시작부터 성능이 좋지 않은 Duration predictor의 출력과 mas의 출력을 discriminator에 입력으로 사용하니 당연한 결과라고 생각됨. 


하지만 학습을 하기 위해서는 두 loss가 0.5로 수렴이 되어야 할 것 같은데 방법을 알려줄 사람이 있으면 좋겠음.