크리스프 테크놀로지스(Krisp Technologies)가 최신 음성 AI 개발 도구인 ‘VIVA’를 공개하며 음성 인공지능 에이전트의 정확도 및 대화 품질 개선에 본격 나섰다. 해당 소프트웨어 개발 키트는 음성 데이터에서 핵심적인 정보를 식별하고 대화 흐름을 섬세하게 조율함으로써, 보다 자연스럽고 유연한 사용자 경험을 제공하는 것이 핵심이다.
회사 측에 따르면 VIVA는 현재 전 세계적으로 매달 10억 분 이상의 음성 데이터를 실시간으로 처리하고 있다. VIVA는 ‘Voice Isolation for Voice Agents’의 약자로, 다양한 디바이스의 오디오 경로에 통합되어 음성 에이전트가 대화 중 신호를 정확히 식별하고 반응할 수 있도록 돕는다. 이를 통해 불필요한 끼어들기를 줄이고, 사용자와 AI 간의 상호작용이 인간처럼 자연스럽게 이어지게 한다.
크리스프의 공동 창업자이자 최고경영자 데이빗 바그다사리안(Davit Baghdasaryan)은 매끄러운 대화 흐름, 이른바 ‘턴테이킹(turn-taking)'이야말로 음성 기반 인공지능의 차별점이라고 강조한다. 특히 그는 "대화 중 배경음이나 다른 사람의 목소리가 개입되면 AI가 혼란스러워진다"며, “인간은 말의 억양, 숨의 리듬, 정적 등 다양한 비언어 신호로 대화를 자연스럽게 이어가지만, AI는 아직 그 부분에서 한계가 있다”고 설명했다.
VIVA는 이런 한계를 극복하기 위해 20밀리초 미만의 짧은 지연 시간으로 오디오를 처리하고, 턴테이킹 정확도를 최대 3.5배까지 향상시킨다. 이로 인해 통화 중단 비율이 절반 가까이 감소하고, 고객 만족도가 눈에 띄게 개선된다고 회사 측은 밝혔다.
기존 AI 음성 모델이 고성능 GPU를 필요로 했던 반면, VIVA는 CPU 환경에서도 안정적으로 작동한다는 점도 주목할 만하다. 이 덕분에 고가의 인프라 없이 다양한 장치에 손쉽게 적용할 수 있으며, 복잡한 모델과 병행해도 성능 저하 없이 운용 가능한 것이 강점이다.
또한, VIVA는 주변 환경 소음을 걸러내고, 핵심 발화만을 분석해 텍스트 변환 정확도를 끌어올리는 데 집중한다. 가령, 배경 TV 소리나 아이들의 웃음소리 등 비논리적 음성 데이터를 스스로 인지하고 제거함으로써, 불필요한 끼어들기를 예방하는 기능이 포함돼 있다. 바그다사리안은 “웃음처럼 감정적인 비언어 음성 신호를 무시하는 처리도 중요하다”며 “이를 통해 더 인간에 가까운 AI 커뮤니케이션이 가능해진다”고 말했다.
VIVA는 이미 데카곤AI, Voxex.ai, Vapi, 울트라복스.ai(구 Fixie.ai), LiveKit 등 다양한 AI 음성 에이전트 시스템에 통합돼 있고, 주요 글로벌 AI 연구소에서도 탁월한 성능을 입증하고 있다. Vodex의 최고기술책임자인 쿠마르 사우라브(Kumar Saurav)는 “크리스프의 기술력을 시연했을 때, 시끄러운 사무실 환경에서도 봇이 끊김 없이 대화를 이어간다는 점이 가장 인상적이었다”고 밝혔다.
바그다사리안은 “VIVA의 수십억 분 단위 오디오 처리 경험을 바탕으로, 이제 개발자들이 더욱 반응 빠르고 사용자 친화적인 AI 에이전트를 구축할 수 있을 것”이라며, “고객 응대나 가상 동반자 개발에 있어 새로운 표준이 될 것”이라고 자신했다.
VIVA는 비교적 가벼운 기술 스택과 높은 정확도를 무기로, 차세대 음성 AI 시장에서 중심축 역할을 톡톡히 해낼 것으로 예상된다. 음성 인터페이스가 점차 확대되는 가운데, 대화의 질을 혁신하는 기술로 자리잡게 될지, 업계의 관심이 쏠리고 있다.