https://the-decoder.com/a-15-second-voice-sample-is-all-openais-voice-engine-needs-to-clone-your-voice/
https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

15초 분량의 짧은 음성 샘플로 음성 클론을 생성하는 모델인 음성 엔진을 살짝 엿볼 수 있습니다. 그 결과는 매우 사실적으로 들리지만, 이는 위험을 수반한다고 회사 측은 말합니다.


OpenAI는 보이스 엔진 AI 모델의 초기 연구 결과와 결과를 공개했습니다. 이 모델은 짧은 텍스트 입력과 15초 분량의 음성 샘플을 통해 원본 목소리와 거의 동일한 자연스러운 음성 클론을 생성할 수 있습니다.

음성 엔진은 2022년 말에 개발되었으며 이미 텍스트 음성 변환 API의 사전 정의된 음성과 ChatGPT 음성 및 소리내어 읽기에 사용되고 있습니다. 동시에 OpenAI는 악용될 수 있는 가능성으로 인해 더 광범위한 출시에 신중을 기하고 있습니다.

작년 말부터 OpenAI는 소수의 파트너 그룹과 함께 음성 엔진을 비공개로 테스트해 왔습니다. 초기 적용 사례는 다음과 같습니다:

1. 자연스럽고 표현력 있는 목소리를 사용하여 글을 읽지 못하는 사람과 어린이를 위한 지원을 개선합니다.
2. 동영상과 팟캐스트를 번역하여 크리에이터가 모국어로 더 많은 시청자에게 다가갈 수 있도록 합니다.
3. 외딴 지역의 기본 서비스 개선.
4. 언어 치료 애플리케이션과 같이 말을 못하는 사람들을 돕습니다.
5. 갑작스럽거나 점진적인 음성 손실이 있는 환자의 목소리를 재현합니다.

OpenAI는 음성 엔진의 중대한 위험성, 특히 선거 기간에 유권자 조작의 가능성을 인지하고 있습니다. 현재 테스트 파트너는 동의 없는 사칭을 금지하는 사용 가이드라인을 따라야 합니다. 또한 원 화자로부터 명시적인 허가를 받아야 하며 사용자가 직접 음성을 생성하는 것을 허용할 수 없습니다. AI가 생성한 목소리는 반드시 출처를 명확하게 표시해야 합니다.

음성 인증에 대한 제한을 요구하는 OpenAI


OpenAI는 AI 음성 복제 기술의 가능성을 보여주기 위해 음성 엔진과 연구 결과를 공유하고 있습니다. 이 기술을 대규모로 사용하게 될지 여부와 관계없이 전 세계가 이 기술이 어디로 향하고 있는지 이해하는 것이 중요하다고 이 회사는 말합니다.


OpenAI는 민감한 데이터에 대한 음성 인증 제거, 음성 사용에 대한 보호, AI의 기능과 한계에 대한 교육, 더 나은 콘텐츠 추적 기술, 알려진 음성에 대한 인증 프로세스 및 블랙리스트 등을 옹호합니다. 또한 추적성과 사전 사용 모니터링을 위해 워터마킹과 같은 보안 조치를 사용합니다.