원신 4.0 음성파일 분류하기

AI 음성 채널

알림 알림 중 알림 취소

구독자 5577명 알림수신 129명 @The_Voice

TTS, VITS, SVC와 같은 딥러닝 음성 합성 기술 관련 정보와 이야기를 공유합니다.

📄정보 원신 4.0 음성파일 분류하기

숨쉬세요침삼키세요눈깜빡이세요

추천 7 비추천 0 댓글 17 조회수 1095 작성일 2023-08-22 20:32:44

https://arca.live/b/aispeech/84432472

암만 생각해도 방법이 있을 것 같아서 여기저기 찾아가지고 해결했는데

혹시나 원신 모델 직접 만들어보고 싶은 경우에 도움되라고 올려봄

-준비물-

원신 클라이언트

리버싱된 원신 데이터 (들어가서 Clone 옆에 다운로드->zip 아니면 git으로 받으셈)

Wwise-Unpacker (들어가서 Code 누르고 Download zip)

파이썬 3.11

fnvhash (파이썬 설치 후 pip install fnvhash 명령어로 설치)

여유 용량 약 2~30GB

1. 원신 보이스 파일 wav로 변환하기

일단 원신 설치폴더로 가서 Genshin Impact game\GenshinImpact_Data\StreamingAssets\AudioAssets 로 들어가면

다운받은 음성 언어 폴더들이 있음 나는 예시로 한국어 (Korean)을 뜯을거임

파일들이 이렇게 막 있을텐데 여기서 원하는 캐릭터 보이스가 어딨는지는 절대 못찾음

얘네가 일부러 찾아라 드래곤볼 해놔가지고 싹다 뜯는게 속편함

준비물에서 Wwise-Unpacker 압축을 해제해주고 pck 파일들을 전부 Game_Files 폴더에 집어넣음

그 다음 unpack_wav.bat을 실행하셈

이런식으로 창이 뜨면서 막 변환하고 있다고 뜰거임

변환이 완료되면 dest_wav 폴더에 wav 파일들이 몇만개 쌓여있음

이름부터 졸라 어지러운데 이제 우리는 파이썬 스크립트를 이용해서 이걸 분류해줄거임

그걸 위해서 이 dest_wav 폴더의 이름을 wav로 변경해줌

이건 전적으로 스크립트 때문에 그런거고 dest_wav는 저 프로그램을 돌릴때마다 초기화되는 폴더여서 편의를 위해 변경함

나는 깔끔하게 경로도 옮겨줬음

2. 파이썬 스크립트로 분류하기

빈 텍스트 문서를 하나 만들고 이름은 대충 filter_files_by_original_name.py 라고 해주셈

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
from fnvhash import fnv1_64
import json
import os
 
lang = "korean"
 
if __name__ == "__main__":
    data_path = "E:\\Assets\Genshin\\AnimeGameData-master\\BinOutput\\Voice\\Items"
    filters = ["vo_furina"]
 
    hash_list = {}
    for root, dirs, files in os.walk(data_path):
        for file in files:
            f = open(os.path.join(root, file))
            j = json.load(f)
            f.close()
 
            for item in j:
                src_name = "SourceNames"
                src_filename = "sourceFileName"
                if src_name not in j[item]:
                    src_name = "EDNNCHGNMHO"
                    src_filename = "EEFLLCGNDCG"
                if src_name not in j[item]:
                    continue
                original_path = lang + '\\' + j[item][src_name][0][src_filename].lower()
                for fil in filters:
                    if fil in original_path:
                        if fil not in hash_list:
                            hash_list[fil] = []
                        hash_name = f"{fnv1_64(bytes(original_path, 'utf-8')):x}"
                        hash_list[fil].append(hash_name)
    print("Found files in data:")
    for fil in filters:
        print(f"{fil}: {len(hash_list[fil])}")
        fil_path = os.path.join(os.path.dirname(__file__), fil)
        if not os.path.exists(fil_path):
            os.mkdir(fil_path)
    wav_path = os.path.join(os.path.dirname(__file__), 'wav')
    wavs = os.listdir(wav_path)
    for fil in filters:
        fil_path = os.path.join(os.path.dirname(__file__), fil)
        for wav in wavs:
            for hash_name in hash_list[fil]:
                if hash_name in wav:
                    orig_path = os.path.join(wav_path, wav)
                    os.rename(orig_path, os.path.join(fil_path, wav))
 
 
 
Colored by Color Scripter
cs

메모장으로 열든 IDE로 열든 암튼 그 파일을 열어서 위 내용을 넣어주셈

코드 발로짜서 ㅈㅅ ㅎ 돌아가기만 하면 된거아니노? 세계 최고의 게임회사 베데스다 게임즈가 그러랬음

각설하고 코드에서 lang = "korean" 이라 돼있는데 일본어면 japanese 딴건 모르겠음 머 chinese english겠지

그리고 data_path 도 니 컴에 리버싱한 원신 데이터 압축푼거 경로로 해주셈 다만 \\BinOutput\\Voice\\Items 이건 유지해야함

그리고 filters = ["vo_furina"] 이거는 경로 안에 이 텍스트가 들어있는 wav만 따로 분류한다는거임

여러개를 한 번에 분류하고 싶으면 filters = ["vo_furina", "vo_hutao"] 이런식으로 하면 됨

웬만해선 vo_캐릭 중국어이름 이런식으로 넣으면 되는데 정 뭔지 모르겠다 싶으면 방법이 있음 (쓸데없이 복잡함)

2-1 필요한 음성 파일 찾기

이 글에서 가장 난해하고 영양가없는 파트일거라고 생각함 솔직히 중국어로 때려맞춰보는게 제일 편할거임

리버싱된 데이터에는 각국 언어의 텍스트들도 다 같이 들어있는데

TextMap 폴더에 들어가면 TextMapKR.json 이런게 있을거임 이걸 메모장으로 열어주셈

나는 종려 보이스 경로가 뭔지 알고싶으니까 "돌을 먹는 형벌" 로 검색할거임

2362169514 라는 숫자가 잡혔음

이제 이걸 ExcelBinOutput 폴더 안에 DialogExcelConfigData.json 또는 ReminderExcelConfigData.json에 검색해봄

딴건 상관없고 "GFLDJMJKIKE": 110230519, 이게 해당 대사의 id임

이제 BinOutput\Voice\Lut\Lut.json을 열고 110230519 를 검색함

여기선 파일 ID가 663797853 라고 나와있음

BinOutput\Voice\Items\663797853.json 을 열어주고 다시 아까 대사 id인 110230519 를 검색해줌

그럼 파일 경로가 vo_zhongli 라고 나옴 와~~ 개쓸데없다!

필터까지 다 설정했으면 스크립트를 실행해주셈

그러면 해당 필터에 각각 몇 개의 대사가 검색됐는지 알려주고

필터 이름으로 된 폴더를 생성해서 보이스 파일들을 전부 모아줄거임

이제 들으면서 데이터로 쓸만한 것만 추려내면 됨

댓글 [17]

박스박스박스

2023-08-23 00:19:44

ㄷㄷ 전 하다가 포기햇는데정보감사합니다

펼쳐보기▼

숨쉬세요침삼키세요눈깜빡이세요

2023-08-23 01:06:22

로간

2023-08-23 03:41:20

박스박스박스

2023-08-23 05:33:39

이거 찾은 Hash 숫자에 비해 찾은 wav 파일 수가 너무 적은데 한정이벤트때 나온 음성은 최신판 릴리즈에 없어서 그런가요??

펼쳐보기▼

숨쉬세요침삼키세요눈깜빡이세요

2023-08-23 05:45:49

그런걸로 알고있음 그 프리섭은 오디오 에셋 한 50기가짜리 따로있는데 그거 까면 다 있긴할듯?

펼쳐보기▼

박스박스박스

2023-08-23 05:49:57

그런방법이 ㄷㄷ

펼쳐보기▼

ㅇㅇ

2023-09-10 04:43:09

코드 파이참으로 쓸려하는데 런이 안되요 어찌해야 할까요

펼쳐보기▼

잔솔

2023-11-23 14:10:12

혹시 이거 스크립트 실행 어케 해야 되나용..?

펼쳐보기▼

ㅉㄴ

2023-12-14 12:14:39

덕분에 잘 됐다!!!!!!!!!!!!! 정말 고 맙 다!!!!!!!!!!!!!!!!!

펼쳐보기▼

ㅉㄴ

2023-12-14 12:14:59

숨쉬세요침삼키세요눈깜빡이세요오

2023-12-14 12:33:44

Alice0327

2023-12-18 02:23:00

data_path 부분에서 문제가 발생한것 같은데 경로 지정할때 \\BinOutput\\Voice\\Items을 유지하라는게 무슨 뜻이야? 
 폴더 이름을 wav로 바꿔줬으니 wav\\BinOutput\\Voice\\Items 이런식이 되도록 했는데 자꾸 파일을 못찾았다 뜨면서 안되던데 제발 도와줘..

펼쳐보기▼

숨쉬세요침삼키세요눈깜빡이세요오

2023-12-18 02:35:29

AnimeGameData 레포 다운받아서 압축을 예를 들어서 C:₩AnimeGameData에 풀었다 치면 C:₩₩AnimeGameData₩₩BinOutput₩₩Voice₩₩Items 로 써주면 된다는 말

펼쳐보기▼

Alice0327

2023-12-18 03:51:16

정말 고마워 한번 해볼께

펼쳐보기▼

Alice0327

2023-12-18 05:10:11

성공했다 진짜 고마워

펼쳐보기▼

ㅇㅇ

2024-01-19 11:29:25

앞에 과정을 전부 성공하긴 했는데 몇몇 캐릭들이 계속 실패하는데 이거 어떡함?

펼쳐보기▼

ㅇㅇ

2024-01-19 11:33:30

아 4.0이네 미안

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 📄정보 💾자료 ❓질문 ❗공지 🔨운영

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 30245171

공지 ★필독★ AI 음성 채널 기본 통합 공지 (23-06-12)

ㅇㅇ 2023.03.06 25526

공지 ★필독★ 음성모델 공유 관련 규정 (23-06-14)

The_Voice 2023.06.13 15836

공지 AI 음성챈을 처음 방문한 히치하이커를 위한 안내서 (23-07-01)

Tacotron2 2023.06.07 44857

공지 채널 내에서 "AI 성우" 라는 용어 사용을 자제해주길 바람.

공지 국내 가수 및 스트리머, 성우를 활용한 창작물은 업로드 금지임

무명의개념 2023.07.04 4374

숨겨진 공지 펼치기(3개)

202 📄정보 구글 코랩의 종료가 다가오고 있고 대안을 찾을 것이다 [2]

aat 2023.09.10 603 0

201 📄정보 학습 가이드

aat 2023.09.10 361 2

200 📄정보 Applio 로컬 설치하는법 [8]

jin 2023.09.10 1699 5

199 📄정보 ai커버 믹싱동영상 [4]

aat 2023.09.07 806 1

198 📄정보 믹싱할때 fl studio를 많이 쓰는것같음 [7]

aat 2023.09.07 633 0

197 📄정보 스압) 보카로P가 쓰는 대충 믹싱 강좌 [8]

비둘리 2023.09.06 2749 14

196 📄정보 아무것도 안하고 리버브만 다른거 써봤는데 일반것보단 낫더라

aat 2023.09.06 320 0

195 📄정보 mangio코랩 썼던 사람을 위한 간단 applio 사용법 [12]

PPAP 2023.09.05 1794 6

194 📄정보 오버트레이닝 실시간 방지

aat 2023.09.05 328 3

193 📄정보 Grad-SVC (GVC) [5]

PPAP 2023.09.02 844 5

192 📄정보 gvc 학습 후기, rvc 결과물과 비교 [4]

Tacotron2 2023.09.03 2648 8

191 📄정보 코랩 오류뜨는 이유 [3]

aat 2023.08.30 870 2

190 📄정보 lalal.ai 써봤는데 좋네요

상상영 2023.08.29 641 0

189 📄정보 코랩 안되면 applio 갈아타

aat 2023.08.29 929 0

188 📄정보 UVR 베타버전 8_28_23_2_9

PPAP 2023.08.28 566 3

187 📄정보 뉴비 데이터셋 정제하면서 알게 된 개인적인 경험들 정리 [1]

상상영 2023.08.27 1556 5

186 📄정보 Elevenlabs AI 한국어 기능 생겼네 [2]

시카고피자 2023.08.26 626 2

185 📄정보 POLYLANGVITS에 념글의 webui 추론이 안먹힐때 해결방법

lostbox 2023.08.26 166 0

184 📄정보 rvmpe가 특징추출 엄청빠르네 [2]

aat 2023.08.25 751 0

183 📄정보 언제 여기서 들은 믹싱 팁이었는데 [17]

LRV 2023.08.25 2921 8

전체글 개념글