학습시간 15분만에 VITS 파인튜닝으로 모델 학습시키기 - AI 음성 채널

AI 음성 채널

알림 알림 중 알림 취소

구독자 5577명 알림수신 129명 @The_Voice

TTS, VITS, SVC와 같은 딥러닝 음성 합성 기술 관련 정보와 이야기를 공유합니다.

📄정보 학습시간 15분만에 VITS 파인튜닝으로 모델 학습시키기

추천 2 비추천 0 댓글 7 조회수 2507 작성일 2023-03-11 16:50:33 수정일 2023-03-11 16:57:45

https://arca.live/b/aispeech/71622016

https://github.com/SayaSS/vits-finetuning

오직 일본어만 지원하는데 1000스텝만으로 쓸만한 음성이 나온다고 함

https://www.bilibili.com/video/BV1ZY4y1m7FW

아로나 음성을 배치 사이즈 16으로 1,000스텝 학습한 결과물

3090 기준 배치 사이즈 32로 70,000스텝 학습하는데 18시간 걸린걸 산술적으로만 계산해보면

3090 으로 단 30분이면 위에 아로나 음성급 TTS를 만들 수 있다는거

A100이면 15분으로 가능할 것으로 추측됨

해당 레포에서 제공하는 코랩 노트북이 있는데 코랩 T4 쓰면 한 2시간 걸리려나

한국어도 G_0 D_0 파일을 다른 학습 모델로 교체해서 학습시키면 같은 방법으로 학습이 가능할 것으로 추측됨.

# japanese_cleaners2

_pad = '_'

_punctuation = ',.!?-~…'

_letters = 'AEINOQUabdefghijkmnoprstuvwyzʃʧʦ↓↑ '

# korean_cleaners

_pad = '_'

_punctuation = ',.!?…~'

_letters = 'ㄱㄴㄷㄹㅁㅂㅅㅇㅈㅊㅋㅌㅍㅎㄲㄸㅃㅆㅉㅏㅓㅗㅜㅡㅣㅐㅔ '

한국어의 심볼 수가 일본어보다 더 적어서 한국어는 사전학습모델을 사용하면 동일 시간 학습 기준 더 우수한 결과를 내놓을 것으로 추측됨.

남의 거 돚거해서 뭔가 만드는거에 있어서는 중국만큼 발전이 빠른 나라가 없는 것 같음.

댓글 [7]

2023-03-11 16:54:18

아니 저게 1000스텝으로 나온다고? ㄹㅇ 음성쪽도 발전이 빠르긴하다

펼쳐보기▼

2023-03-11 18:27:24

2023-03-11 18:28:07

이야 이거 대단하다
이게 혁신이지

펼쳐보기▼

2023-03-11 23:19:37

지리고 오지고

펼쳐보기▼

2023-03-15 01:22:57

실행하기 편하게 패키지로 묶어주면 난리 나겠네요. ^^;

펼쳐보기▼

kdr

2023-05-10 01:01:33

1000step 만으로 나오는 것처럼 보이는데 학습할 때 보시면 pretrained 받으라고 하잖아요
그 이유가 받으라는 모델 파일은 이미 학습된 파일에다가 ’조금더 수정하고 싶으면 알아서 하셈 ‘느낌이라서요
표시는 G_0.pth 라고 되어있는데 얜 사실 진짜 0step이 아니에요.

펼쳐보기▼

kdr

2023-05-10 01:02:27

결론은 0부터 학습시키는건 알던대로 10만step을 넘겨야합니다

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 📄정보 💾자료 ❓질문 ❗공지 🔨운영

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 30258451

공지 ★필독★ AI 음성 채널 기본 통합 공지 (23-06-12)

ㅇㅇ 2023.03.06 25527

공지 ★필독★ 음성모델 공유 관련 규정 (23-06-14)

The_Voice 2023.06.13 15836

공지 AI 음성챈을 처음 방문한 히치하이커를 위한 안내서 (23-07-01)

Tacotron2 2023.06.07 44859

공지 채널 내에서 "AI 성우" 라는 용어 사용을 자제해주길 바람.

ㅇㅇ 2023.03.06 9283

공지 음성 채널 신문고

ㅇㅇ 2023.03.06 2519

공지 채널 홍보용 광고 패널

패챤 2023.04.01 1837

공지 국내 가수 및 스트리머, 성우를 활용한 창작물은 업로드 금지임

무명의개념 2023.07.04 4374

숨겨진 공지 펼치기(3개)

20 📄정보 diff-svc 코랩 런타임 에러 [2]

PPAP 2023.04.04 1809 6

19 📄정보 만든 VITS 모델로 AI 채팅하기.rpy [8]

Tacotron2 2023.04.04 2034 6

18 📄정보 시도해볼까 하면서 찾아보는 와중에 괜찮은 내용 적힌 블로그 찾음 [1]

티볼리36개월할부납입오너 2023.04.01 503 0

17 📄정보 한국어 vits tts 학습/파인튜닝 및 추론 가이드.md [57]

Tacotron2 2023.03.30 17669 11

16 📄정보 diff-svc 만들다가 에러 생기면 diff-svc 디코 가보셈

아샥 2023.03.24 551 1

15 📄정보 로컬 diff-svc 인퍼런스 코드 [1]

Tacotron2 2023.03.24 588 4

14 📄정보 diff-svc 음성학습 잘됐다... 올리면 안된데서 느낌만 표현해줄게 [2]

dokdo114 2023.03.23 723 1

13 📄정보 tts 데이터셋 대본을 만들고 싶은데 귀찮아요 [4]

Tacotron2 2023.03.17 1523 4

12 📄정보 3명정도 이거찾던데 코랩 지금 고쳤는지 어떤지 모르겠는데 일단 해결법 찾음. [13]

고닉1235789 2023.03.16 1949 3

11 📄정보 지금 diff-svc에는 numba 오류가 발생했습니다. [4]

dokdo114 2023.03.16 376 2

10 📄정보 학습시간 15분만에 VITS 파인튜닝으로 모델 학습시키기 [7]

Tacotron2 2023.03.11 2508 2

9 📄정보 tortoise-tts 튜토리얼 ( AI 음성 복제 따라하기 TTS ) [2]

ㅇㅇ 2023.03.10 3262 7

8 📄정보 elevenlabs을 이용한 음성 학습 가이드 ( 원문:Voice AI Synthesis Guide) [1]

ㅇㅇ 2023.03.10 1622 1

7 📄정보 diff-svc 데이터셋 보컬의 음역대가 모델의 퀄리티에 큰 영향을 주지 않는 것 같음 [5]

Tacotron2 2023.03.09 1178 4

6 📄정보 diff svc 출력용gui 프로그램 [9]

poilkei 2023.03.09 1557 3

5 📄정보 이걸로 체험해보시는건 어떤가요? [1]

무명의개념 2023.03.08 967 0

4 📄정보 이 캐릭터/목소리로 이거 하려면 뭘 찾아봐야 해요? [10]

Tacotron2 2023.03.06 7563 28

3 📄정보 Diff-SVC 창작품의 대단히 좋은 예시 [3]

ㅇㅇ 2023.03.06 3031 15

2 📄정보 리빙포인트) vits나 diff-svc, so-vits등 requirements.txt를 설치할 때 뭔가 오류가 발생한다면 [1]

Tacotron2 2023.03.06 2553 8

1 📄정보 음성에서 배경음악을 제거하는 방법 [22]

이하비스 2023.03.06 3206 13

전체글 개념글