AI 기반 음성 기술이 비약적인 발전을 거듭하면서, 음성 에이전트의 자연스러운 대화 능력이 기업 환경에서도 핵심 역량으로 부상하고 있다. 이 가운데 팔란티어 출신 엔지니어들이 창업한 음성 AI 스타트업 일레븐랩스(ElevenLabs)가 대화형 AI 플랫폼 ‘Conversational AI 2.0’을 선보이며 업계의 이목을 다시 한 번 집중시켰다.
일레븐랩스가 내놓은 이번 신제품은 기업용 서비스, 콜센터, 마케팅 분야에서 활용될 수 있는 고도화된 음성 에이전트를 구축하도록 설계됐다. 기존 버전이 출시된 지 불과 4개월 만에 대대적인 업그레이드를 단행하며, 빠른 기술 개발 속도를 입증했다. 특히 해당 발표는 경쟁사 휴미(Hume)가 새로운 AI 음성 모델 EVI 3를 공개한 다음날 이뤄졌으며, 오픈소스 경쟁 모델들까지 등장한 상황에서 일레븐랩스의 기술 우위에 대한 외부 평가에 반박하는 행보로 해석된다.
일레븐랩스 엔지니어링 팀의 요제프 마르코에 따르면, ‘Conversational AI 2.0’은 전작과 비교해 성능 면에서 확연한 차이를 보인다. 핵심은 ‘상호 교대(turn-taking)’ 기반 대화 모델로, 상대방의 말이 끝나는 시점이나 중간의 머뭇거림, 추임새 등을 실시간으로 분석해 언제 발언하고 쉬어야 할지를 판단한다. 이는 기존 음성 시스템에서 흔히 발생했던 어색한 중첩 발언이나 침묵을 제거, 보다 인간다운 의사소통을 구현한다는 점에서 의미가 크다.
글로벌 비즈니스에 적용 가능성을 넓히기 위한 ‘다국어 기반 자동 감지 기능’도 탑재됐다. 사용자의 언어를 자동으로 인식하고, 같은 맥락에서 해당 언어로 응답할 수 있어 언어 장벽을 낮추고 고객 경험을 크게 향상시킨다는 평가다.
또 하나 주목할 점은 ‘RAG’ 시스템의 도입이다. 이는 외부 지식 베이스에서 필요한 정보를 실시간으로 끌어와 응답에 반영하는 기능으로, 지연 시간은 최소화하면서도 사용자의 프라이버시를 철저히 보호한다. 병원 환경에서는 치료 가이드라인을 바로 불러오거나, 고객지원 현장에선 제품 관련 문서를 실시간 확인하며 대응할 수 있다.
이 외에도 텍스트·음성의 멀티모달 인터페이스, 다양한 성격의 캐릭터로 전환 가능한 '멀티 캐릭터 모드'까지 지원해, 교육, 콘텐츠 제작, 마케팅 등 다양한 용도에서 활용도를 높였다. 특히 다량의 개인화 통화를 동시에 실행할 수 있는 '배치 콜링' 기능은 조사, 알림, 캠페인 등에서 기업의 확장성과 생산성을 개선할 수 있는 수단으로 평가된다.
보안과 규제 준수 측면에서도 높은 신뢰성을 확보했다. 미 보건정보보호법(HIPAA) 기준을 준수하는 것은 물론, 유럽 내 데이터 거버넌스를 위한 'EU 데이터 상주 옵션'도 마련돼 있어 금융, 의료, 공공 부문에서도 안심하고 도입할 수 있다.
구독 요금은 무료부터 월 $1,320(약 190만 원)까지 다양하게 구성돼 있다. 무료 요금제는 비상업적 용도로 사용할 수 있으며, 최고 등급인 비즈니스 요금제는 1만3,750분의 사용 시간과 30개의 동시 접속을 지원한다.
일레븐랩스는 자사 소개 영상에서 “지금이야말로 가장 자연스럽고 맥락을 이해하는 음성 AI를 구축할 수 있는 결정적 시기”라고 강조하며, 이번 버전을 통해 기업들이 차세대 고객 경험을 선도할 수 있도록 지원하겠다는 의지를 드러냈다. 실제로 텍스트 기반 AI가 정착된 지금, 음성을 중심으로 한 인터페이스의 진화는 기업 디지털 전환의 다음 단계로 자리 잡아가고 있다.