Inside

MINIMAX: 독자의 목소리로 기사를 읽다

보이스 클로닝 업체 비교와 API 활용법에 대하여
임희래 뉴스룸 디벨로퍼|동아일보 디지털랩 2025-11-13 11:02:21
'나는 말하지 않았다'를 기획한 건 2년 전이었다. 부모가 자신의 아이에 대해 SNS에 올린 사진과 음성들을 기반으로 아이의 딥보이스와 딥페이크 영상을 만들어내는 내용의 유튜브 영상을 보고, 독자의 목소리로 기사를 읽어주는 인터랙티브 기획을 구상했다. 하지만 그 당시에는 보이스 클로닝 기술이 긴 시간의 녹음 파일을 요구하거나, 한국어를 제대로 구사하지 못하는 등 기술적인 한계가 있어 실제 프로젝트로 이어질 수 없었다.

언젠가 기술이 발전하면 시도해보자고 생각하던 중, 올해 9월쯤 VOLI라는 국내 AI 오디오 스타트업의 보이스 클로닝 기술을 접하게 됐다. 만들어진 지 얼마 안 된 국내 회사였기에 '기술도 많이 발전했으니 예전보다 한국어는 잘 하겠지'라는 막연한 기대감으로 본인의 목소리를 테스트 삼아 복제해봤다. 결과는 놀라웠다. 10초 남짓의 녹음 파일만으로 실제 내 목소리와 굉장히 비슷한 목소리가 사이트에서 흘러나왔다. 그렇게 '나는 말하지 않았다' 프로젝트가 시작됐다.
보이스 클로닝이란
사실 보이스 클로닝, 딥보이스와 같은 단어의 뜻을 정확하게 알고 있는 사람은 많지 않다. 사람 얼굴을 AI로 합성해 음란물을 만드는 등 딥페이크 범죄는 언론에 자주 보도됐지만, 보이스 클로닝이나 딥보이스가 단독으로 보도되는 경우가 현재까지는 그리 많지 않았기 때문이다. 간단히 말하면 이 두 기술 모두 AI가 사람의 목소리를 인공적으로 만들어내는 기술이다. 보이스피싱이나 딥페이크에도 이런 기술을 활용하여 피해자의 목소리를 복제하거나 가짜 음성을 생성하는 데 사용되고 있다. 하지만 어두운 면만 있는 건 아니다. 보이스 클로닝 기술은 ALS(루게릭병), 후두암, 성대 질환 등으로 목소리를 잃은 환자들이 자신의 목소리를 되찾게 해 준다. 후두암으로 목소리가 나오지 않던 헐리우드 배우 발 킬머가 ‘탑건:매버릭’에서 다시 연기를 하고, 교통사고로 전신마비가 돼 노래할 수 없던 더크로스의 김혁건이 다시 노래할 수 있었던 것은 AI의 도움 덕이었다. TTS(Text To Speech·텍스트를 음성으로 바꾸는 기술)를 활용해 나레이션을 제작하는 방송사나 유튜브 채널도 많아지고 있다. 우리나라 대기업과 스타트업들도 보이스 클로닝 의 중요성을 인지하고 앞다투어 관련 기술을 개발하고 있다.
보이스 클로닝 업체를 찾아서
국내에서 보이스 클로닝 서비스를 제공하는 대표적인 대기업은 하이브다. 하이브는 수퍼톤 이라는 이름으로 보이스 클로닝 서비스를 만들고 일반 대중에게 공개하고 있다. 스 보이스 클로닝 서비스를 선보이는 국내 스타트업들도 많다.그 중 VOLI를 선택했던 이유는 기사 기획 시점 기준 가장 신생 업체였고, 앞서 말했듯이 테스트 결과도 꽤 좋았기 때문이었다. 그러나 API를 활용해 팀원들의 음성 녹음 후 다시 보이스 클로닝을 진행한 결과물은 충격적이었다. 실제 녹음과 너무나 다른 복제 음성이 나온 것이었다.
몇 번을 시도해도 마찬가지였다., 특히 여자 목소리는 실제 화자의 음성과 굉장히 다른 것뿐만 아니라 말투나 억양이 부자연스러워 더욱 AI 같은 느낌이 강했다. 프로젝트를 접을 수도 있었던, 위기의 순간이었다.

어쩔 수 없이 다른 업체를 찾아봐야 했다. 이때부터 보이스 클로닝 업체 찾기 대장정이 펼쳐졌다. 우선 ChatGPT와 Claude에게 관련 업체들을 추천해달라고 했고, 전문가들로부터 ELEVEN labs, Resemble AI 등 여러 해외 사이트를 추천받았지만 역시나 만족스러운 결과물이 나오지 않았다. 기업에서 API를 제공하지 않거나, 한국어를 잘 구현하지 못하는 문제가 발생했다. 프로젝트를 포기하려던 찰나, 문득 유튜버들은 어느 기업의 TTS를 사용하는지 궁금해져서 검색을 시작했다. 대부분 위에서 언급한 업체들을 추천하고 있었다., 그중 한 유튜버가 우리팀에선 시도해보지 않았던 업체를 추천했는데, 바로 중국 AI 기업, ‘MINIMAX’였다. 유튜버가 보여주는 결과물도 나쁘지 않길래 ‘이번이 마지막’이란 마음으로 해당 업체 서비스를 활용해 테스트를 진행해 보기로 결심했다. 두근거리는 마음으로 목소리를 복제한 후 결과물을 확인했을 때, 드디어 VOLI를 처음 테스트하고 결과를 확인했을 때의 기분을 다시 느낄 수 있었다. 혹시나 싶어 여자 목소리로도 시도하고 여러 번 테스트했지만 편차가 크지 않게 안정적으로 작동하는 것을 확인했다. MINIMAX의 홈페이지를 둘러본 결과 API도 제공하고 있었고, 관련 문서도 잘 정리되어 있었기에 MINIMAX를 최종적으로 택하게 됐다.
MINIMAX 로고MINIMAX 로고
API 사용하기
MINIMAX의 API 사용은 전혀 어렵지 않다. API를 어려워하는 개발자들에게 이 내용이 조금이라도 도움이 되었으면 한다. 기본적으로 API는 제공자측에서 사용하기 쉽도록 사용 방법을 적은 문서를 제공하고 있다. MINIMAX의 API 공식 문서에서는 TTS, Voice Cloning, Voice Design, Voice Management, Video 생성, 이미지 생성 등등에 대해 다루고 있다. 만약 API를 처음 접하는 개발자라면 아래 두 가지만 명심하면 된다.
• API 키 발급: 대부분의 서비스는 회원가입 후 개발자 페이지에서 API 키를 발급받을 수 있다. 이 키는 요청을 인증하는 데 사용되므로 안전하게 보관해야 한다.
• 공식 문서 읽기: API 제공사의 공식 문서를 반드시 읽어보자. 엔드포인트 URL, 요청 방법, 필수 파라미터, 응답 형식 등이 상세히 설명되어 있다.
'나는 말하지 않았다' 프로젝트에서는 MINIMAX API를 활용하여 AWS Lambda를 작성하고 HTTP request 방식으로 URL을 생성했다. 이후 페이지에서 해당 URL을 불러와 요청하는 방식으로 진행했다. 아래는 MINIMAX에서 제공하고 있는 Voice Clone API의 Javascript 버전이다.
MINIMAX에서 제공하는 Voice Clone API의 JavaScript 버전MINIMAX에서 제공하는 Voice Clone API의 JavaScript 버전
먼저 url 변수는 요청을 보낼 엔드포인트 주소다. MINIMAX 측에 요청할 때 이 링크로 데이터를 전송하게 된다. 그다음 options의 내용을 채워야 한다. method의 POST는 RESTful API의 기본 메서드인 POST 방식을 뜻한다. headers는 content-type과 Authorization을 채우는 곳이다. content-type은 거의 대부분 json 형식으로 진행되고, Authorization 부분은 앞서 발급받은 API key 값을 넣으면 된다. 마지막으로 body 부분에 복잡한 요소들이 많은 것 같지만, API 문서에서 이미 다 제공하고 있는 부분이기 때문에 걱정할 필요 없다. 필수적으로 필요한 부분은 문서에 required로 표시가 되어있고, 이외의 부분은 무시하고 진행해도 된다. 게다가 Try it이라는 버튼도 있어서 curl 버전으로 요청이 제대로 가는지 테스트 해볼 수 있다.
실제 기사에 사용한 음성 클로닝 API 사용 코드실제 기사에 사용한 음성 클로닝 API 사용 코드
실제로 작성한 코드를 보면 API 문서에 있던 예제 코드와 거의 다를 게 없다는 걸 알 수 있다. 차이점은 body에서 필요하지 않은 부분은 제거하고 필수적인 요소들만 사용했다는 점이다. 이러한 과정은 다른 많은 API에서도 동일하게 적용되니, 초보 개발자들도 두려움 없이 도전해보길 바란다.
보이스 클로닝 기술은 빠르게 발전하고 있고, 이제는 상용화된 서비스를 통해 누구나 쉽게 사용할 수 있게 됐다. MINIMAX와 같은 플랫폼을 활용하면 10초의 녹음만으로도 놀라운 품질의 목소리 복제가 가능하다. '나는 말하지 않았다' 프로젝트는 이러한 기술을 활용해 독자들에게 새로운 경험을 제공하는 실험이었다. 앞으로도 이런 새로운 경험을 제공하는 콘텐츠를 만들어 나가기 위해 노력하는 ND가 되겠다.
임희래 뉴스룸 디벨로퍼
임희래 뉴스룸 디벨로퍼|동아일보 디지털랩

새로운 이야기가 사람들에게 강렬하게 남아서 오랜 시간동안 회자될 수 있도록 만드는 일을 하고 있습니다. 뉴스와 기술이 만나 함께 성장할 수 있도록 매일 고민하고 나아가는 개발자가 되겠습니다.