파이썬 3.8.10 universal 버전 설치

https://www.python.org/ftp/python/3.8.10/python-3.8.10-macos11.pkg

우선 사전에 데이터셋을 5초 단위로 잘라야함.

1. 터미널 실행

2. cd Music

3. git clone https://github.com/flutydeer/audio-slicer

4. cd audio-slicer

5. python3 -m venv ./audio-slicer

6. source ./audio-slicer/bin/activate

7. python slicer-gui.py

8. GUI 창이 뜨면 Threshold는 -35, Maximum Length는 5000, Maximum Interval은 10, Hop Size는 10, Maximum Sillence Length는 10으로 설정, 출력 폴더 지정 후 Start.

9. 출력 후 5초 단위로 잘려진 파일들은 data_gvc 폴더를 만들고 그 속에 가수의 이름으로 된 파일을 또 만들어 그 안에 넣는다.

10. 데이터셋 준비 끝


지금부터가 Grad-SVC 설정이다.

1. Grad-SVC 설치 https://drive.google.com/file/d/1OjHm1j-IyEa2hihUaiLbWRtNlcP-2VwD/view?usp=sharing

2. Music 폴더에 압축 해제

3. 터미널 실행 후 cd Music/Grad-SVC 입력

4. python3 -m venv ./Grad-SVC

5. source ./Grad-SVC/bin/activate

6. Pytorch 설치 pip3 install --pre torch torchaudio --index-url https://download.pytorch.org/whl/nightly/cpu 입력

7. export PYTORCH_ENABLE_MPS_FALLBACK=1

8. pip install -r requirements.txt

9. python gvc_preprocessing.py -t 0


지금부터가 학습과정이다.

1. ./configs 폴더의 base.yaml을 Visual Studio Code로 열기

2. Full Epochs와 Fast Epochs를 원하는 수로 설정(본인은 1000으로 설정)

3. batch_size를 gpu의 vram 크기에 맞게 설정

4. save_steps는 설정된 수의 Epoch마다 저장함 (본인은 50으로 설정)

5. 저장

6. 터미널에 python gvc_trainer.py 입력

7. 학습

8. 학습 완료 후 python gvc_export.py --checkpoint_path logs/grad_svc/grad_svc_***.pth 입력 (***은 저장된 .pth 파일 중 가장 높은 수로  입력)

9. gvc.pth 생성 (원하는 가수 이름으로 바꾸기 예: 김동률.pth)

10. Grad-SVC에 원하는 목소리 음원 넣고 python gvc_inference.py --model (자신의 가수 이름).pth --spk ./data_gvc/singer/your_singer.spk.npy --wave (음원 이름).wav --rature 1.015 --shift 0 (피치 조정) 명령어 입력

11. gvc_out.wav가 생성되는데 그게 AI음성 음원이다.