“이 목소리, 진짜 사람 아냐?”… 매출 15% 올린 AI 음성 라임 '아르카나'

| 김민준 기자

인공지능 음성 생성 스타트업인 라임(Rime)이 개발한 텍스트 음성 변환(TTS) 모델 ‘아르카나(Arcana)’가 기업 매출에 실제 기여하는 사례로 주목받고 있다. 도미노피자와 윙스톱 등 주요 브랜드에서 해당 모델을 도입한 이후 매출이 최대 15% 늘어난 것으로 나타나면서, 실제 음성을 능가할 만큼 다양한 ‘인간다운’ 목소리를 구현하는 기술력에 업계의 눈이 쏠리고 있다.

라임의 공동 창업자이자 CEO인 릴리 클리포드는 “고품질의 자연스러운 음성 구현을 넘어서 성별, 나이, 인종, 언어 등 다양한 특성을 기반으로 무한한 음성 조합을 실시간으로 생성할 수 있다”고 설명했다. 사용자는 ‘캘리포니아에 거주하며 소프트웨어에 관심이 많은 30세 여성’처럼 원하는 프로필을 텍스트로 입력만 하면 된다. 매번 결과가 달라지며, 각 브랜드 상황에 특화된 목소리를 생성할 수 있는 만큼 실제 고객 응대에 활용도가 높다는 분석이다.

라임은 모델 훈련을 위해 기존 TTS 솔루션과는 다른 접근을 택했다. 보통은 오디오북이나 성우 샘플링을 기반으로 하지만, 라임은 샌프란시스코 자택 지하실에 녹음 스튜디오를 마련하고, 일반인들의 자연스러운 대화를 수개월에 걸쳐 직접 수집했다. 이들이 모은 대화는 사전 대본이 아닌 사적인 잡담이나 일상 대화 중심이며, 이를 성별, 나이, 억양, 감정, 언어 특성 등 세부 메타데이터로 분류해 정제했다. 이 방식 덕분에 음성모델의 정밀도는 최대 100%에 가까운 정확도를 확보했다.

특히 아르카나는 감정 표현에서도 강점을 보인다. 사용자가 , , 등 단어를 입력하면, 이를 자동으로 인식해 적절한 강도의 웃음, 한숨, 콧노래 등을 삽입한다. 또한 대화 맥락에 따라 음을 높이거나 멈칫하는 듯한 자연스러운 말버릇, ‘음’과 같은 비언어적 표현까지 재현해낸다. 라임은 이를 “모델이 문맥에서 감정을 *추론*한다”며, 인간처럼 ‘행동하는’ 음성 AI라고 강조했다.

기업 고객은 ‘퍼스널라이제이션 하네스(personalization harness)’ 도구를 활용해 다양한 목소리를 실험하고 최고의 성과를 이끌어내는 음성을 분석할 수 있다. 이를 통해 한 목소리에 국한되지 않고 상황별 최적의 음색을 찾아낼 수 있다. 실제로 라임의 기술을 도입한 기업들은 통화 성공률과 고객 전환율이 크게 높아졌다고 입을 모은다.

대표 고객사인 콘버스나우의 엔지니어링 디렉터 악셰이 카야스타는 “라임 도입 이후 통화 성공률이 두 자릿수 상승했다”고 밝혔으며, 디지털 마케팅 플랫폼 윌로포(Ylopo)의 제품 책임자 역시 “시장 내 모든 음성 모델을 테스트한 결과, 라임이 가장 높은 전환율을 기록했다”고 평가했다.

현재 라임의 음성 모델은 매달 약 1억건의 통화에 사용되고 있으며, 특히 도미노피자와 윙스톱에서 라임 음성을 들을 확률은 80% 이상이다. 향후 라임은 실시간 응답 속도를 확보하기 위해 퍼블릭 클라우드 환경에서 온프레미스 모델로 전환을 가속화할 예정이다. 올해 말까지 90% 이상이 로컬 환경에서 처리될 전망이다.

라임은 이외에도 다국어 전환, 억양 구분, 고유명사 인식 등 기업 맞춤형 기술 보완에도 주력하고 있다. 클리포드는 “많은 경쟁사가 이를 ‘마지막 단계의 문제’로 간주하지만, 우리 고객에게는 가장 중요한 첫 관문”이라며, 기술을 인간 친화적 프론트엔드로 완성하는 것이 궁극적 목표라고 강조했다.