파리 미스트랄 AI, 혁신적 '복스트럴 TTS' 모델 공개…텍스트-음성 변환의 미래

| 김민준 기자

파리 기반의 미스트랄 AI SAS가 오늘 그들의 첫 텍스트-음성 변환 인공지능 모델인 '복스트럴 TTS'를 발표했다. 이 새로운 모델은 시장에서 가장 잘 알려진 음성 모델들과 경쟁하기 위해 설계되었다. 총 4억 개의 매개변수를 가진 가벼운 이 모델은 최신 랩톱과 중간급 데스크탑 그래픽 처리 장치, 그리고 일부 고급 모바일 장치에서도 작동 가능하다. 이 회사는 이 모델을 오픈 소스로 제공하여, 고객들이 자신의 시스템에 맞도록 자유롭게 수정할 수 있도록 했다.

미스트랄은 이 모델이 새로운 음성에 대해 높은 적응성을 보여주며, 새로운 오디오 생성 시간 지연이 매우 짧다고 설명했다. 모델의 크기는 작지만, 전통적인 텍스트-음성 생성의 정확성을 넘어 감정 표현까지 가능하도록 설계되었다. 미국식, 영국식 및 프랑스어 방언을 포함한 다국어 지원도 특징이다.

미스트랄은 경쟁이 치열한 텍스트-음성 상업 모델 시장에서 경쟁력을 확보하기 위해, 이번 모델이 기존의 엘레븐랩스와 비교해도 자연스러움을 보여준다고 강조했다. 또한, 이 모델은 대규모 음성 데이터셋을 바탕으로 9개 언어에서 최신 성능을 발휘할 수 있도록 훈련되었다.

복스트럴 TTS의 특징 중 하나는 3초의 음성 참조를 통해 쉽게 적응하고 목소리 복제를 수행할 수 있는 고충실도의 기능이다. 이러한 기능은 더욱 커스터마이즈한 텍스트-음성 AI 모델의 기반을 제공하며, 미스트랄은 이를 통해 미래에 더욱 강력한 솔루션을 제공할 수 있을 것이다.

사용자는 현재 미스트랄 스튜디오를 통해 이 모델을 활용할 수 있으며, 오픈소스 버전은 Hugging Face에서 다운로드할 수 있다.

본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.