맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크 복사 완료 링크가 복사되었습니다.

샤오미, 646개 언어 지원 음성 복제 TTS 모델 'OmniVoice' 오픈소스 공개

프로필
토큰포스트 속보
댓글 0
좋아요 비화설화 0
 샤오미, 646개 언어 지원 음성 복제 TTS 모델 'OmniVoice' 오픈소스 공개

샤오미 AI 랩이 646개 언어를 지원하는 다국어 음성 복제 TTS 모델 'OmniVoice'를 오픈소스로 공개했다. 최소한의 단방향·양방향 트랜스포머 아키텍처를 적용했으며, 중국어와 영어 환경에서 합성 품질과 추론 속도 측면에서 기존 모델을 웃돌았다고 PANews가 보도했다.

PANews에 따르면 OmniVoice는 약 58만 시간 규모의 50개 오픈소스 데이터셋으로 학습됐고, 저자원 언어 지원을 위해 동적 업샘플링 전략을 적용했다. 24개·102개 언어 테스트에서 음성 유사도와 명료도는 여러 상용 시스템을 상회했고, 일부 지표는 실제 음성에 근접하거나 이를 넘어섰다.

이 모델은 교차 언어 음성 복제, 사용자 지정 음색, 잡음이 섞인 참조 오디오 적응, 세부 언어 제어, 발음 교정 기능을 지원한다. 학습 코드와 추론 코드, 모델 가중치는 GitHub와 Hugging Face 등에서 오픈소스로 제공된다.

본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.

<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>

많이 본 기사

alpha icon

지금 꼭 알아야 할 리포트

댓글

댓글

0

추천

0

스크랩

스크랩

데일리 스탬프

0

말풍선 꼬리

매일 스탬프를 찍을 수 있어요!

데일리 스탬프를 찍은 회원이 없습니다.
첫 스탬프를 찍어 보세요!

댓글 0

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요
1