tts 데이터셋 대본을 만들고 싶은데 귀찮아요 - AI 음성 채널

AI 음성 채널

알림 알림 중 알림 취소

구독자 5574명 알림수신 129명 @The_Voice

TTS, VITS, SVC와 같은 딥러닝 음성 합성 기술 관련 정보와 이야기를 공유합니다.

📄정보 tts 데이터셋 대본을 만들고 싶은데 귀찮아요

추천 4 비추천 0 댓글 4 조회수 1522 작성일 2023-03-17 02:13:47 수정일 2023-03-17 02:18:58

https://arca.live/b/aispeech/71983532

vits나 glowtts 데이터셋 만들때 일일히 받아적는거 참 번거로운 일인데, 그것 가지고 유료 api 이용하자니 선뜻 손이 가지 않을 때..

로컬에서 사용 가능한 다양한 음성인식 모델이 있지만 그냥 구글 음성인식 라이브러리 쓰는게 간편하고 퀄리티도 제일 좋았음.

앗 gcp면 돈 드는거 아닌가요? 혜자로운 구글님은 음성 인식도 어느정도 까지는 무료로 제공함. 심지어 api 키 같은걸 따로 발급받지 않아도 됨.

사용 방법

1. 라이브러리 설치

pip install SpeechRecognition

자세한 정보는 https://pypi.org/project/SpeechRecognition/

pip install tqdm

이건 그냥 진행도 나타내는데 쓰는거

2. 간단한 사용 예제

https://gist.github.com/ouor/12b3ee2aabcaa0459b5704ec9db7d567

google_sr.py파일이 있는 디렉토리에서 아래 명령어 실행

python google_sr.py -i dir/to/audio -o dir/to/manifest.txt -l ko-kr

대충 보면 알겠지만 -i {음성 파일이 있는 경로} -o {텍스트 파일로 저장될 경로} -l {인식할 언어} 로 입력하면 됨

인식 결과물 예제.txt

유료 음성인식 api도 마찬가지지만 3시간치 음성 파일 변환하고 싶다고 3시간짜리 통으로 보내면 서버측에서 이렇게 큰건 안 들어간다면서 연결 끊어버림. 10초 이내로 자른 짧은 음성파일로 사용해야 함.

물론 음성 인식도 완벽하지 않아서 정확히 인식되지는 않으니 다시 사람 손으로 수정을 해야 함

근데 영어나 일본어처럼 익숙하지 않은 언어 데이터셋 만든다고 처음부터 고생하는 것보다는 훨씬 나음

근데 구글도 거덜날 정도로 퍼주기만 하는 바보형은 아니라 하루에 요청 수가 너무 많으면 그냥 에러만 반환함

네이버 클로바 유료 음성인식 api도 써봤는데 구글 무료 음성인식 퀄리티가 훨 낫더라

댓글 [4]

2023-03-17 02:45:22

이거 진짜 유익하다

펼쳐보기▼

2023-03-17 05:16:42

whisper가 더 좋던데

펼쳐보기▼

2023-03-17 16:38:07

오 이거 괜찮네 이거 쓰는걸로 글 수정해야겠다

펼쳐보기▼

2023-03-17 12:51:44

마소 azure 도 쓰기 괜찮았던거같음

펼쳐보기▼

본 게시물에 댓글을 작성하실 권한이 없습니다. 로그인 하신 후 댓글을 다실 수 있습니다. 아카라이브 로그인

전체글 개념글

최근 최근 방문 채널

최근 방문 채널

전체 일반 📄정보 💾자료 ❓질문 ❗공지 🔨운영

번호 제목

작성자 작성일 조회수 추천

공지 아카라이브 모바일 앱 이용 안내(iOS/Android)

*ㅎㅎ 2020.08.18 30106538

공지 ★필독★ AI 음성 채널 기본 통합 공지 (23-06-12)

ㅇㅇ 2023.03.06 25501

공지 ★필독★ 음성모델 공유 관련 규정 (23-06-14)

The_Voice 2023.06.13 15812

공지 AI 음성챈을 처음 방문한 히치하이커를 위한 안내서 (23-07-01)

Tacotron2 2023.06.07 44824

공지 채널 내에서 "AI 성우" 라는 용어 사용을 자제해주길 바람.

ㅇㅇ 2023.03.06 9270

공지 음성 채널 신문고

ㅇㅇ 2023.03.06 2511

공지 채널 홍보용 광고 패널

패챤 2023.04.01 1836

공지 국내 가수 및 스트리머, 성우를 활용한 창작물은 업로드 금지임

무명의개념 2023.07.04 4365

숨겨진 공지 펼치기(3개)

📄정보 diff-svc 코랩 런타임 에러 [2]

PPAP 2023.04.04 1809 6

📄정보 만든 VITS 모델로 AI 채팅하기.rpy [8]

Tacotron2 2023.04.04 2033 6

📄정보 시도해볼까 하면서 찾아보는 와중에 괜찮은 내용 적힌 블로그 찾음 [1]

티볼리36개월할부납입오너 2023.04.01 502 0

📄정보 한국어 vits tts 학습/파인튜닝 및 추론 가이드.md [57]

Tacotron2 2023.03.30 17665 11

📄정보 diff-svc 만들다가 에러 생기면 diff-svc 디코 가보셈

아샥 2023.03.24 550 1

📄정보 로컬 diff-svc 인퍼런스 코드 [1]

Tacotron2 2023.03.24 588 4

📄정보 diff-svc 음성학습 잘됐다... 올리면 안된데서 느낌만 표현해줄게 [2]

dokdo114 2023.03.23 722 1

📄정보 tts 데이터셋 대본을 만들고 싶은데 귀찮아요 [4]

Tacotron2 2023.03.17 1523 4

📄정보 3명정도 이거찾던데 코랩 지금 고쳤는지 어떤지 모르겠는데 일단 해결법 찾음. [13]

고닉1235789 2023.03.16 1949 3

📄정보 지금 diff-svc에는 numba 오류가 발생했습니다. [4]

dokdo114 2023.03.16 375 2

📄정보 학습시간 15분만에 VITS 파인튜닝으로 모델 학습시키기 [7]

Tacotron2 2023.03.11 2507 2

📄정보 tortoise-tts 튜토리얼 ( AI 음성 복제 따라하기 TTS ) [2]

ㅇㅇ 2023.03.10 3261 7

📄정보 elevenlabs을 이용한 음성 학습 가이드 ( 원문:Voice AI Synthesis Guide) [1]

ㅇㅇ 2023.03.10 1618 1

📄정보 diff-svc 데이터셋 보컬의 음역대가 모델의 퀄리티에 큰 영향을 주지 않는 것 같음 [5]

Tacotron2 2023.03.09 1177 4

📄정보 diff svc 출력용gui 프로그램 [9]

poilkei 2023.03.09 1556 3

📄정보 이걸로 체험해보시는건 어떤가요? [1]

무명의개념 2023.03.08 966 0

📄정보 이 캐릭터/목소리로 이거 하려면 뭘 찾아봐야 해요? [10]

Tacotron2 2023.03.06 7561 28

📄정보 Diff-SVC 창작품의 대단히 좋은 예시 [3]

ㅇㅇ 2023.03.06 3030 15

📄정보 리빙포인트) vits나 diff-svc, so-vits등 requirements.txt를 설치할 때 뭔가 오류가 발생한다면 [1]

Tacotron2 2023.03.06 2551 8

📄정보 음성에서 배경음악을 제거하는 방법 [22]

이하비스 2023.03.06 3205 13

전체글 개념글