vits나 glowtts 데이터셋 만들때 일일히 받아적는거 참 번거로운 일인데, 그것 가지고 유료 api 이용하자니 선뜻 손이 가지 않을 때..

로컬에서 사용 가능한 다양한 음성인식 모델이 있지만 그냥 구글 음성인식 라이브러리 쓰는게 간편하고 퀄리티도 제일 좋았음.

앗 gcp면 돈 드는거 아닌가요? 혜자로운 구글님은 음성 인식도 어느정도 까지는 무료로 제공함. 심지어 api 키 같은걸 따로 발급받지 않아도 됨.


사용 방법


1. 라이브러리 설치

pip install SpeechRecognition

자세한 정보는 https://pypi.org/project/SpeechRecognition/

pip install tqdm

이건 그냥 진행도 나타내는데 쓰는거


2. 간단한 사용 예제

https://gist.github.com/ouor/12b3ee2aabcaa0459b5704ec9db7d567

google_sr.py파일이 있는 디렉토리에서 아래 명령어 실행

python google_sr.py -i dir/to/audio -o dir/to/manifest.txt -l ko-kr

대충 보면 알겠지만 -i {음성 파일이 있는 경로} -o {텍스트 파일로 저장될 경로} -l {인식할 언어} 로 입력하면 됨


인식 결과물 예제.txt


유료 음성인식 api도 마찬가지지만 3시간치 음성 파일 변환하고 싶다고 3시간짜리 통으로 보내면 서버측에서 이렇게 큰건 안 들어간다면서 연결 끊어버림. 10초 이내로 자른 짧은 음성파일로 사용해야 함.


물론 음성 인식도 완벽하지 않아서 정확히 인식되지는 않으니 다시 사람 손으로 수정을 해야 함

근데 영어나 일본어처럼 익숙하지 않은 언어 데이터셋 만든다고 처음부터 고생하는 것보다는 훨씬 나음


근데 구글도 거덜날 정도로 퍼주기만 하는 바보형은 아니라 하루에 요청 수가 너무 많으면 그냥 에러만 반환함


네이버 클로바 유료 음성인식 api도 써봤는데 구글 무료 음성인식 퀄리티가 훨 낫더라