사람의 목소리를 ai한테 학습시키려면 우선 학습시킬 목소리를 따로 데이터셋으로 만들어야 하는게 첫번째 단계임


하지만 직접 녹음하는게 아닌 이상 보통 노랫소리나 잡음이 섞여있기도 하고, 또 알맞은 길이로 문장을 잘라내는것도 직접 다 하려면 꽤 오랜 시간이 들어가는 고된 반복노동이라 보통 여기서부터 막히는 경우가 많음


특히 기존에 나와있는 데이터셋이 아닌 원하는 목소리를 따로 학습하고 싶은 사람들일수록 더더욱 그런 문제를 많이 만나게 될거임


그래서 내가 자주 쓰는 2가지를 여기에 소개해보려고 함


1. vocal-remover

말 그대로 노래에서 보컬과 inst를 분리하기 위해 사용하는 프로그램임

프로그램이 오픈소스로 풀려있는것중 내가 써본거로는 이게 가장 쓰기 간단하고 편했음


https://colab.research.google.com/drive/1UVoR7Pbr1UttGlDtr5z3UYNvx8QaLDIh?usp=sharing

깃허브 보고 설치하는것도 간단한 편에 속하고 그런거 다 귀찮다 하면 위에 내가 만들어서 쓰고있는 코랩 있으니까 저거 가져다가 하면 됨

참고로 영상을 집어넣어도 돌아가니까 소리를 따로 분리해야 하는 귀찮음도 없음


2. 가우디랩

우리나라 회사에서 운영하는 베타 서비스인데 똑같이 영상을 넣을 수 있고 위와는 달리 악기 소리도 분리해서 조절 할 수 있는 등 좀 더 다양한 기능이 들어있음

그대신 언제 베타가 끝나서 유료로 전환되거나 서비스가 날아가게 될지는 아무도 모름


사용방법은 위의 링크로 들어가서 웹서비스 바로가기를 누른 다음 Instrument Separation을 눌러서 회원가입 진행하고 파일 올려서 설명대로 따라서 하면 됨

참고로 여기도 영상을 올려도 알아서 음원 인식하니까 분리 안해도 될거임


다음번에는 잡음 제거랑 오디오를 공백 기준으로 자를때 쓰는 프로그램과 성능 좋은 음성-텍스트 변환기에 대해 정보글을 써볼 예정임


채널 정보탭 첫글은 내꺼다