2024/04/27 기준으로 이 글에는 기록되지 않은 사전학습모델이 존재합니다.

https://docs.google.com/document/u/0/d/1j9J8A8Oop9bMOHmCs3jDXzPujuD6TQ0Q396rJ0MyuIc/mobilebasic

이 링크를 참조하여 모든 비공식 사전학습모델의 목록을 확인하세요

번역: deepl

신사 숙녀 여러분 다음 도전자 준비하세요 - RIN_E3

RVC V3를 받지 못해서 대체품을 만들었습니다.

야하로! 제 이름은 MUSTAR라고 해요, 그냥 지나가던 사람, 사전학습 모델을 만들었습니다. Simplcup, Blaise, alexmurkoff, Aleks29 과 함께 일하고 있습니다.

RIN은 완전히 새로 만든 영어 프리트레인입니다.

Specs

데이터셋: 140시간

epochs: 50

steps: 1040928

샘플 속도: 40k

훈련된 하드웨어: RTX 4080, A100

나는 많은 테스트 \ 모델을 수행하지 않았으므로 사전학습모델과 실험을 자유롭게 비교하십시오.

다운로드 링크- https://huggingface.co/MUSTAR/RIN_E3/tree/main

ZIP 링크- https://huggingface.co/MUSTAR/RIN_E3/resolve/main/RIN_E3.zip?download=true

즐기세요

번역: deepl

Itaila가 출시되었습니다!

Itaila는 초소형 데이터셋으로 모델을 만들 수 있는 32k 사전학습모델입니다!

현재까지의 결과는 놀랍습니다.

Link: https://huggingface.co/TheStinger/itaila/tree/main

두 개의 오디오를 첨부합니다;

1. 2분 데이터 세트, 150개 에포크, 8개 배치 크기, **매우 노이즈** (거의 정리되지 않음)

2. 2분 30초 데이터 세트, 150개 에포크, 4개 배치 크기, **매우 깨끗한** (오디오와 같은 팟캐스트)

현재는 이탈리아어 모델만 테스트되었지만 스페인어 및 다른 언어에서도 잘 작동할 수 있습니다.

사용해 보시고 <#1159290193619189821>에서 피드백을 보내주세요.

일라리아, 아웃!

번역: deepl

SnowieV3 RU-JP 사전학습모델!!

1) SnowieV3 40k https://huggingface.co/MUSTAR/SnowieV3.1-40k/tree/main

2) SnowieV3 48k https://huggingface.co/MUSTAR/SnowieV3.1-48k/tree/main

3) SnowieV3 32k https://huggingface.co/MUSTAR/SnowieV3.1-32k/tree/main

4) SnowieV3 X RIN_E3 40k https://huggingface.co/MUSTAR/SnowieV3.1-X-RinE3-40K/tree/main

5) SnowieV3_JP_Hubert https://huggingface.co/MUSTAR/Snowie_V3.1_JP_hubert

모델의 러시아어 및 일본어 말하기 향상에 도움을 주는 사전학습모델 "Snowie" \ 영어를 사용하는 모델이 러시아어와 일본어를 말하게 합니다

데이터셋 크기: 58시간

34명의 여성 발화

24명의 남성 발화

20개의 다른 목소리

사용 방법

1 Huggins에서 G 및 D pth 파일을 다운로드합니다.

2 pretrained_v2\ 밑의 커스텀 사전학습 폴더에 넣습니다.

Applio가 있는 경우 직접 업로드합니다(폴더로 넣을 수도 있습니다).

3 포크(표준 포크 또는 망지오 포크)에 사전학습모델의 경로를 붙여넣습니다.

4 이제 락할 준비가 되었습니다!

---

휴버트 변경 방법 빠른 가이드

주의: 추론 및 학습은 다른 모델과 bert에서는 작동하지 않습니다. Jp bert는 학습된 모델에서 작동하며 기본 모델에서는 작동하지 않습니다.

표준 휴버트가 있는 동일한 폴더로 옮기세요.

반드시! 새 버트를 전송할 때는 파일 이름을 hubert_base.pt로 변경하세요.

Japanese Hubert by rinna

https://huggingface.co/rinna/japanese-hubert-base

(1)

여러분, 현재 제가 이용하고 있는 Pretrain 모델인 KLM 쉐어 버전을 먼저 한국분들에게 공유하여 드립니다.
현재 버전은 Applio 의 학습 탭에서 커스텀-프리트레인을 켜주시고 각각의 D, G 파일을 넣어주시면 됩니다.
쉐어 버전은 샘플레이트가 32k만 지원하므로 학습시 반드시 32k로 학습을 시켜주셔야 합니다.

해당 버전은 3200개에 해당하는 한국인의 양순음, 치조음, 경구개음, 연구개음, 성문음, 치조등등 각 발음이 모두 학습되는 학습문장을 총 16명의 실제 성우, 일반인 분들의 목소리를 녹음하여 학습시켰으며 4명은 가수분들을 섭외하여 저,중,고음에 해당하는 노래데이터를 학습한 모델입니다.

이르면 10월~11월에 총 400여명의 목소리가 학습된 프리데이터 (32k,40k,48k) 전체 공개할 예정입니다.
학습 모델을 반드시 RVC V2 - 32k로 진행해 주세요.

데이터셋 클리닝 -
묵음 부분에 별도의 노이즈를 포함하지 않아도 됩니다. 가급적 클리닝시 묵음에 해당하는 부분을 모두 삭제해 주세요.
Feature Index 값이 0.5 이상으로 넘어가는 경우 프리트레인 된 데이터를 제대로 활용하지 못할 수 있습니다. 자세한 내용은 Feature Index를 참고하세요.
데이터셋은 기본적으로 5~10분 사이가 적당합니다.
노래를 부른 데이터가 있다면 가장 좋겠지만 설령 노래데이터가 포함되지 않아도 대부분의 음역대가 커버 됩니다.

Feature Index -
Feature Index는 여러분의 모델에 별도의 노래 데이터가 없는 상태에서 학습을 시켰을 때 프리트레인된 모델이 얼마나 여러분의 모델에 개입을 할 수 있는지 결정하게 됩니다.
즉 여러분들이 Feature Index를 1 (100%)의 값으로 설정을 한다면 여러분의 모델이 커버하지 못하는 음역대로 넘어가면 소리가 끊어지거나 튀게 되지만 0.2~0.3 (20%~30%) 정도를 설정하게 되는 경우 자연스럽게 프리트레인된 데이터가 비어있는 음역대를 채워주게 됩니다.

반대로 Feature Index값이 0인 경우 비어있는 음역대에 전혀 다른 목소리가 나올수도 있기 때문에 여러분이 Cover에 목적을 두고 있다면 Feature Index의 값을 조정하며 프리데이터의 개입을 조정하여 주셔야 합니다.

Feature Index의 값이 높으면 높을수록 그 사람의 말투나 억약이 자연스럽게 나오지만 학습되지 않은 영역에서는 의도하지 않은 소리가 나올수도 있으므로 이 부분 역시 적당한 값을 조정해 가면서 테스트를 해보시길 권장드립니다.

PreTrain Model Link - https://huggingface.co/SeoulStreamingStation/IU-Voice-MultiLanguage-V1/resolve/main/KLMv7s_32k.zip?download=true

사용시 문제점등 피드백은 개인 디코등으로 말씀해주세요!

(2)

번역 : deepl

먼저 KLM은 사전 학습된 모델입니다. 양순, 치조, 연구개, 목젖, 성문 등 한국어의 모든 소리를 포함하는 박준철 박사의 논문 내용을 바탕으로 일반 한국인 남녀는 물론 다양한 성우들이 40페이지 분량의 대본으로 모델을 훈련시켰으며, 남녀 보컬리스트의 노래 데이터도 포함되어 있습니다.

일반적인 사전 훈련 모델과 달리 음역대가 매우 넓어 노래를 커버하는 데 큰 도움이 될 것입니다. 안타깝게도 공유 버전에는 라이선스가 없는 스크립트와 오디오가 일부 포함되어 있으며 32K 및 48K(실험용) 샘플만 지원합니다.

(이는 RVC V2 / 32K 또는 48K 모델에만 적용될 수 있습니다.)

Applio는 현재 이 서버에서 개발자들이 가장 널리 사용하는 소프트웨어로, 초보자도 직관적이고 쉽게 사용할 수 있습니다. 파일은 Applio의 맞춤형 사전 교육에서 바로 사용할 수 있도록 추출되어 있습니다.

Applio가 설치된 \rvc\pretraineds\pretraineds_custom 폴더에 파일을 압축 해제하기만 하면 됩니다.

한국어와 일본어는 구조와 발음이 비슷하기 때문에 대부분의 일본어는 KLM과 잘 작동하겠지만, 소위 '아야야'형 음성이나 브이튜버 음성에는 제대로 적용될지 잘 모르겠습니다. ASMR이나 로봇 소리가 포함된 음성에는 사용하기에 적합하지 않습니다.

AI 허브에는 많은 연구를 하는 숙련된 크리에이터가 많지만, 대부분의 초보 크리에이터는 모델 학습에 필요한 리소스나 하드웨어가 없기 때문에 취미나 공부용으로 사용하는 분들을 위해 서버나 콜랩 비용을 최소화하도록 설계한 모델입니다.

데이터셋을 구현하거나 정리하기가 정말 어려운 경우에는 10초 이하의 데이터셋으로 대화를 관리할 수 있지만, 이는 권장되지 않습니다. 일반적으로 모델의 데이터가 너무 제한적이면 화이트 노이즈가 심하게 증가하는 경향이 있으므로 최소 3분 이상의 데이터 세트가 바람직합니다.

저는 현재 사전 학습된 모델을 계속 학습시키고 있습니다. 빠르면 올해 10~11월에는 32k, 40k, 48k를 지원하는 모델을 공유할 수 있을 것으로 예상합니다. 공유 버전에 비해 데이터 양이 워낙 방대해 상당한 시간이 소요될 것으로 예상됩니다. 이 사전 모델은 저작권이나 사용 제한이 없는 버전으로 다양한 용도로 사용할 수 있습니다. 다만, 이 모델을 사용하실 경우 KLM을 사용했다는 사실을 글에 명시해 주시면 문제점을 파악하고 모델을 개선하는 데 큰 도움이 될 것입니다.

학습에 대한 권장 사항 :

데이터셋 -

모델 데이터 세트 : 5~8분 분량의 대화 데이터셋

(선택 사항) 보컬 데이터셋 : 1~3분

학습 -

"" RVC V2 / 32K 또는 48K / RMVPE 사용 ""

GPU당 배치 크기 : 4

에포크 : 50~150 (에포크 수는 데이터 양에 비례합니다. 자세한 내용은 모델 메이커 채널의 전문가에게 문의하세요.)

사전 학습된 모델 링크 -

32K 모델 :

https://huggingface.co/SeoulStreamingStation/KLMv7s/resolve/main/KLMv7s_32k.zip?download=true

48K 모델 (실험용):