샤오미 AI 랩이 646개 언어를 지원하는 다국어 음성 복제 TTS 모델 'OmniVoice'를 오픈소스로 공개했다. 최소한의 단방향·양방향 트랜스포머 아키텍처를 적용했으며, 중국어와 영어 환경에서 합성 품질과 추론 속도 측면에서 기존 모델을 웃돌았다고 PANews가 보도했다.
PANews에 따르면 OmniVoice는 약 58만 시간 규모의 50개 오픈소스 데이터셋으로 학습됐고, 저자원 언어 지원을 위해 동적 업샘플링 전략을 적용했다. 24개·102개 언어 테스트에서 음성 유사도와 명료도는 여러 상용 시스템을 상회했고, 일부 지표는 실제 음성에 근접하거나 이를 넘어섰다.
이 모델은 교차 언어 음성 복제, 사용자 지정 음색, 잡음이 섞인 참조 오디오 적응, 세부 언어 제어, 발음 교정 기능을 지원한다. 학습 코드와 추론 코드, 모델 가중치는 GitHub와 Hugging Face 등에서 오픈소스로 제공된다.

