크리스프(Krisp Technologies)가 자사의 새로운 음성 AI 개발 키트 'VIVA'를 공개하며 음성 기반 AI 에이전트의 정확도를 한층 끌어올릴 수 있는 전환점을 제시했다. 이번에 발표된 VIVA는 전 세계에서 매달 10억 분이 넘는 음성 데이터를 처리 중이며, 대화형 AI 시스템의 핵심 능력인 ‘턴테이킹(Turn-taking)’을 획기적으로 개선하는 점에서 주목받고 있다.
턴테이킹이란 사람 간 대화에서 음성과 침묵, 억양 등을 활용해 서로 대화를 주고받는 과정을 의미한다. 하지만 AI는 배경 소음이나 주변 대화 소리로 인해 사용자의 발화를 오인하거나 대화를 방해하는 경우가 잦았다. VIVA는 이 같은 한계를 극복하기 위해 음성 활동을 빠르게 감지하고, 발화자와 AI 간 반응 타이밍을 정밀하게 조절해 보다 자연스러운 대화를 구현한다.
크리스프 공동 창업자이자 CEO인 다빗 바그다사리안(Davit Baghdasaryan)은 “배경에 목소리가 섞이거나 웃음 소리 등이 포함되면 AI는 쉽게 혼란스러워진다”면서 “이러한 요소들을 제거하는 능력은 인간 수준의 음성 AI를 구현하는 데 필수”라고 강조했다. 실제로 VIVA는 20밀리초 이하의 지연 시간으로 작동하며, 턴테이킹 정확도를 최대 3.5배 높이고, 통화 중단율을 50% 줄이는 성과를 보이고 있다.
기존의 GPU 중심 처리 방식과 달리, VIVA는 CPU에서도 효율적으로 구동 가능한 경량화 모델로 설계돼 다양한 기기에서의 상용화 가능성도 높다. 이 덕분에 데카곤 AI, 울트라복스.ai(구 픽시.ai), 바피(Vapi), 보덱스(Vodex) 등의 AI 솔루션 기업들이 VIVA를 적용해 현실적인 대화 개선 효과를 보고 있다. 특히 보덱스의 CTO 쿠마르 사우라브는 “시끄러운 사무실 환경에서도 봇이 정확히 대화 흐름을 유지하는 장면을 보고 놀라움을 금치 못했다”고 전했다.
전문가들은 크리스프의 기술이 AI 음성 비서, 콜센터 자동화, 가상 고객응대 시스템 등 다양한 분야에 적용돼 고객 만족도를 크게 끌어올릴 수 있을 것이라 전망하고 있다. 크리스프는 향후 수십억 건의 오디오 데이터를 처리하면서 개발자들이 더 지능적인 음성 AI 에이전트를 구축할 수 있는 기반을 제공할 계획이다.