‘딥마이크의 반란’?…2인 개발 오픈소스 음성 AI, 구글·오픈AI 능가

| 김민준 기자

자체 음성 AI 기술을 둘러싼 경쟁이 치열해지는 가운데, 단 두 명의 개발자 팀이 만든 오픈소스 음성 합성 모델 'Dia'가 구글, 오픈AI, 일레븐랩스 등 유수 기업들과 어깨를 나란히 할 만큼의 성능을 선보이며 업계의 이목을 끌고 있다.

미국의 스타트업 나리랩스(Nari Labs)가 공개한 Dia는 16억 개의 매개변수로 구성된 텍스트 기반 음성 생성 모델로, 단순한 문장 낭독을 넘어 실제 대화처럼 자연스러운 억양과 감정 표현을 구현하는 것이 특징이다. 창립자인 김도엽 공동대표는 “Dia는 현재 상용화된 일레븐랩스의 스튜디오나 구글의 팟캐스트 기반 생성 AI인 NotebookLM보다도 나은 성능을 구현했다”며 자부심을 드러냈다.

Dia는 개발 비용 ‘0원’으로 시작됐다. AI 비전문가였던 나리랩스 공동창업자 두 사람은 NotebookLM의 자연스러운 음성 생성 기능에 매료된 뒤, 더 높은 수준의 사용자 설정 자유도를 제공하는 모델을 만들고자 TTS API들을 비교 분석하며 자체 개발에 착수했다. 현존하는 TTS 모델들이 인간적인 대화의 흐름과 비언어적 표현 구현에 한계를 보인다는 점에서 이들은 심도 있는 연구 끝에 Dia를 완성했다.

Dia는 텍스트 내 발화자 태그([S1], [S2])나 감정 표현 기호((laughs), (clears throat) 등)를 정확히 해석해 자연스러운 오디오로 변환하며, 동일 문장을 재생할 때마다 음색이 달라지는 비고정형 음성도 구현 가능하다. 사용자가 원하면 오디오 샘플을 입력해 음색을 고정하거나, 말투를 이어가는 식의 음성 클로닝도 지원한다.

성능 비교 테스트 결과도 주목할 만하다. 나리랩스는 자사 Notion 웹페이지를 통해 일레븐랩스, 브렌든 아이리브가 개발한 세서미(Sesame)의 모델과 Dia를 비교한 음성 샘플을 공개했다. 응급상황이나 분노, 슬픔처럼 감정이 드러나는 시나리오에서 Dia는 감정 선을 살리며 균형 있는 리듬과 억양을 유지한 반면 경쟁 모델은 문장 간 억양이 고르지 않거나 비언어 표현을 제대로 구현하지 못하는 한계를 드러냈다.

특히 주목할 점은 Dia가 공개 오픈소스 라이선스인 아파치 2.0으로 배포된다는 점이다. 엔터프라이즈나 앱 스타트업들이 상업적 목적으로 모델을 사용할 수 있으며, Hugging Face와 깃허브(GitHub)를 통해 코드 및 가중치, 체험용 인터페이스 등이 모두 제공된다. PyTorch 2.0 이상과 NVIDIA A4000 수준의 GPU 환경에서 초당 약 40토큰 속도로 추론이 가능하며, 향후 CPU나 경량화 버전도 제공될 예정이다.

Dia 개발 이면엔 구글이 제공한 TPU 리서치 클라우드와 Hugging Face의 지원도 있었다. 나리랩스는 사운드스톰(SoundStorm), 파라킷(Parakeet), 디스크립트 오디오 코덱 등 기존의 연구 결과를 기반으로 Dia를 설계했으며, 윤리적 사용 가이드라인도 명확히 설정했다. 예를 들어 개인 사칭, 허위 정보 유포, 불법 용도에의 사용은 금지하고 있다.

향후 나리랩스는 일반 대중이 간편히 사용할 수 있는 '소비자용 Dia' 버전도 출시할 계획이다. 텍스트 기반 인터뷰, 오디오 드라마 제작, 고객센터 응답 자동화 등 다양한 콘텐츠 제작 및 유틸리티 분야에서 활용 가능성이 기대된다. 음성 AI 시장이 급변하는 가운데, 이 자그마한 스타트업의 등장이 기술 민주화 흐름에 어떤 변화를 가져올지 귀추가 주목된다.