AI가 말의 감정까지 읽었다… 웰세이드랩스, 음성합성 기술 대폭 업그레이드

| 김민준 기자

사운드가 살아 움직이는 듯한 음성을 생성하는 인공지능 기술이 더욱 정교해지고 있다. AI 음성 솔루션 개발사 웰세이드랩스(WellSaid Labs)가 자사의 음성합성 플랫폼을 대대적으로 개선하며 AI 기반 음성 생성 시장에서의 기술적 우위를 강화했다.

회사 측은 이번 업그레이드를 통해 음성 제작 속도와 현실감을 동시에 끌어올렸다고 밝혔다. 핵심은 웰세이드랩스의 독자적인 AI 모델 ‘Caruso’다. 이 모델은 공공 음원이 아닌 전문 성우의 라이선스 음성 데이터를 기반으로 훈련됐으며, 억양, 강세, 발음, 음색까지 섬세하게 조절 가능한 것이 특징이다. 새로운 스튜디오 기능에서는 단어 단위로 음성의 높이, 속도, 음량을 조정할 수 있게 됐고, 하나의 대본에 복수의 음성을 삽입하는 것도 가능해졌다.

이번 개선으로 제작자는 클릭 수를 줄이고, 오디오를 즉시 미리 확인하며 보다 직관적으로 작업할 수 있다. 또한 음질 면에서도 진일보했다. 표준 오디오 품질을 96kHz로 상향하면서, AI 음성이 강조하는 뉘앙스와 감정의 흔들림까지 보다 자연스럽게 구현할 수 있게 됐다.

유저 편의를 고려한 맞춤 발음 기능도 강화됐다. 의학용어 9,000여 개, 법률 관련 500여 개를 포함해, 항공 및 산업 용어까지 광범위하게 커버하며, 모든 발음에 대해서는 옥스포드 영어사전 기준을 적용한다. 브랜드명, 약어, 외래어에 대한 음성 표기법도 사용자가 직접 설정할 수 있으며, 자동 제안 기능도 함께 제공한다.

이번 업데이트로 추가된 36개의 신규 음성은 아랍어, 터키어, 페르시아어 등 다양한 언어와 18개 방언을 포함한다. 북미, 호주, 영국, 아일랜드 등 영어권 국가들의 지역별 악센트도 포괄하며, 콘텐츠의 글로벌 현지화를 본격 지원한다.

AI 음성 생성 기술은 빠르게 성장 중이다. 시장조사 기관 그랜드뷰리서치에 따르면, 관련 시장 규모는 2023년 35억 달러(약 5조 400억 원)에서 2030년까지 218억 달러(약 31조 4,000억 원)로 확대될 전망이다. 일레븐랩스(Eleven Labs), 휴메AI(Hume AI) 등 음성합성 스타트업들도 올해 각각 1억 8,000만 달러(약 2,592억 원), 5,000만 달러(약 720억 원)를 유치하며 경쟁을 가속하고 있다.

활용 사례도 확장일로다. AI 기반 음성 에이전트는 단순 질의응답을 넘어, 고객 문의 대응, 미팅 일정 조율, 개인 맞춤형 정보 제공 등 실제 사람처럼 역할을 수행하고 있다. 고객 데이터를 기반으로 개별화된 커뮤니케이션도 가능해지면서 기업의 운영 효율성은 물론 사용자 만족도까지 제고되고 있다.

웰세이드랩스는 앞으로 음성 제작 성능을 한층 끌어올릴 계획이다. 사용자 활동 분석 대시보드부터 프레이징, 호흡 조절 등 발화 표현의 정밀한 제어 기능까지, 다음 단계의 기술 업데이트도 예고됐다. 이 같은 진화는 음성과 대화가 중심이 되는 AI 시대에 웰세이드랩스가 선도적 입지를 확고히 하는 지렛대가 될 전망이다.