뉴욕에 본사를 둔 감성 음성 AI 스타트업 휴음(Hume)이 차세대 대화형 음성 모델 ‘EVI 3’를 공개했다. 이 모델은 사용자 맞춤 목소리 생성부터 고객 지원, 헬스 코칭, 몰입형 스토리텔링 및 가상 동반자 기능까지 다양한 분야를 겨냥하고 있다. 휴음은 이번 EVI 3가 지금까지 출시된 자사 제품 가운데 가장 자연스럽고 감성적이며, 사용자 감정을 파악하고 그에 맞춰 목소리 톤과 어휘를 조정하는 능력에서 업계 표준을 새롭게 제시할 것이라고 밝혔다.
EVI 3는 음성 간 상호작용 방식으로, 사용자가 모델과 직접 대화하면서 자신만의 목소리를 생성할 수 있다. 개인용 데모는 현재 휴음 공식 웹사이트와 iOS 앱을 통해 체험할 수 있으며, 개발자용 API는 몇 주 내로 출시될 예정이다. 이를 통해 다양한 고객 응대 시스템, 창작 프로젝트, 가상 비서 등에서 모델을 통합해 사용할 수 있도록 할 계획이다.
기자가 직접 사용한 데모에서는 단 몇 초 만에 원하는 어조와 분위기를 기반으로 맞춤형 음성을 생성할 수 있었으며, 이전의 대규모 언어 모델이나 전통적인 음성 비서, 예를 들어 애플의 시리나 아마존의 알렉사보다 훨씬 자연스럽고 유연한 대화 경험을 제공했다.
EVI 3의 핵심 강점은 ‘음성 기반 감정 지능’이다. 전통적인 챗봇이나 음성 비서가 텍스트 중심이거나 사전 정의된 응답에 의존하는 것과 달리, EVI 3는 사용자 화법의 높낮이, 억양, 멈춤, 감정 폭발 등 비언어적 요소에 반응하며 더욱 몰입감 있는 대화를 구현한다.
현재는 음성 복제 기능이 포함돼 있지 않지만, 휴음은 자사 텍스트-음성 변환 엔진 ‘옥타브’에 빠른 시일 내 해당 기능을 탑재할 계획이다. 이 기능은 단 5초 분량의 음성만으로 사용자나 특정 인물의 목소리를 복제할 수 있으며, 윤리적 안전장치를 최우선으로 고려해 도입하겠다는 입장이다.
내부 벤치마크에 따르면, EVI 3는 오픈AI의 최신 음성 모델 GPT-4o를 비롯해 구글의 제미니(Gemini) 시리즈, 오큘러스 공동 창업자 브렌던 이리브가 설립한 세서미(Sesame) 모델보다 전 영역에서 더 우수한 평가를 받았다. 사용자 1,720명을 대상으로 한 테스트 결과, 자연스러움, 감정 이해도, 표현력, 응답 속도, 오디오 품질 등 모든 항목에서 EVI 3가 선호도 상위를 기록했다.
EVI 3는 약 300밀리초의 낮은 응답 지연, 영어·스페인어를 포함한 다국어 지원, 이론상 무제한 맞춤 음성 생성을 지원하며, 음성 대화 도중 사용자 요구에 따라 말투나 감정을 실시간으로 조절할 수 있는 기능도 제공한다. API 연동 구조 역시 조만간 공개될 예정이다.
가격정책은 유연한 사용량 기반이다. EVI 2의 요율은 분당 $0.072(약 104원)로 이전 버전보다 30% 저렴하다. 옥타브 TTS는 월 3달러 for 스타터 요금제부터, 최대 월 900달러(약 129만 원)에 이르는 엔터프라이즈 요금제까지 선택 폭이 광범위하다. 특수 사용자를 위한 ‘페이 어즈 유 고(Pay-as-you-go)’ 요금제도 제공되며, 대형 고객사의 경우 맞춤형 솔루션과 전용 데이터셋 라이선스, 온프레미스 배포 등이 가능한 사전 협의형 옵션도 운영 중이다.
휴음은 2021년 전 구글 딥마인드 연구원이던 앨런 코웬(Alan Cowen)에 의해 설립됐다. 수십만 명의 글로벌 참여자를 기반으로 수집한 음성, 텍스트, 표정, 감정 데이터를 결합해 AI 모델을 훈련시켰으며, 단순한 의사소통을 넘어서 ‘의도 파악’이라는 고차원 정서 지능 구현을 추구해왔다.
2024년 출시된 EVI 2는 이전 모델보다 반응 속도를 40% 개선했고, 30% 가격을 낮췄다. 2025년 2월에는 정서 인식이 가능한 텍스트-음성 변환 모델 옥타브를 선보이며 콘텐츠 제작자 시장에서 주목을 받았다.
이번 EVI 3는 AI 기반 음성 기술의 새로운 진화 단계를 보여주는 사례다. 정서적 깊이와 사용자 맞춤성을 높이며, 디지털 인터페이스의 ‘사람다움’을 구현해가고 있다는 점에서 의미가 크다. 휴음이 꿈꾸는 비전은 이제 기술적 실현을 앞두고 있으며, 개발자와 창작자는 이를 바탕으로 또 다른 혁신을 설계할 수 있는 기회를 맞이하고 있다.