아이올라, 음성 인식 혁신… 상황 따라 최적 ASR 모델 자동 선택

| 김민준 기자

인공지능 스타트업 아이올라(aiOla)가 음성 인식의 정확도를 혁신적으로 끌어올릴 수 있는 새로운 솔루션을 내놨다. 이 회사가 발표한 ‘음성 인식 지능 게이트웨이(Speech Intelligence Gateway)’는 사용자의 음성을 실시간으로 분석해 가장 적합한 음성 인식 모델에 자동으로 연결해 주는 시스템이다. 복잡한 언어적 특성을 동적으로 판단한 후 최상의 정확도를 낼 수 있는 모델을 선택해 처리하는 방식이다.

아이올라가 지난해 공개한 ‘DRAX’는 병렬 흐름 기반 학습 기법을 통해 기존 음성 인식 방식의 한계를 극복한 음성 AI 모델이었다. DRAX는 모든 문장을 한꺼번에 처리하면서 주변 소음, 억양 등 다양한 현실적 변수에 강한 성능을 보였다. 이를 기반으로 이번에 발표된 신기술 ‘QUASAR(QUAlity-weighted Speech ASR Routing)’는 음성의 특성, 화자의 억양, 소음 여부, 문맥 등을 분석해 수많은 자동 음성 인식(ASR) 엔진 중 가장 적합한 모델을 선택해 준다.

최근 음성 AI 시장은 오픈AI의 위스퍼(Whisper), 아마존의 트랜스크라이브(Transcribe), 알리바바의 큐엔2(Qwen2), 딥그램(Deepgram) 등 다양한 ASR 서비스가 노이즈 환경이나 억양별 최적화를 앞세워 경쟁 중이지만, 대부분의 기업은 여전히 표준 평가에서 가장 뛰어난 성능을 보인 단일 모델만을 사용하고 있다. 그로 인해 실제 환경에서 인식 오류가 잦고 user experience가 크게 떨어진다는 지적이 끊이지 않았다.

아이올라의 공동 설립자이자 사장인 아미르 하라마티(Amir Haramaty)는 기업들이 특정 ASR 모델의 단점을 감수한 채 사용하는 현실을 지적하며 "미국식 영어 발화에는 기능이 탁월한 모델도, 영국식 억양이나 소음 환경에서는 무력해지기 일쑤"라고 말했다. 그는 "QUASAR는 음성 인식을 정적인 기술이 아닌 상황에 따라 변화하는 동적인 문제로 바라본 첫 시스템"이라고 강조했다.

아이올라는 이 시스템을 내부 벤치마크 테스트에서 실제 다양한 억양, 배경소음, 전문 콘텐츠 환경에 적용했다. 그 결과, 응답 요청의 88.8%에서 최고 성능의 ASR 엔진을 동적으로 선택해 정확도를 개선할 수 있었다고 밝혔다. 특히 고객 지원, 회의록 작성, 자동 응답 시스템 등의 영역에서 사람과 AI 간 대화의 이해도를 획기적으로 높일 수 있을 것으로 기대된다.

하라마티는 “음성 인식이 AI와 사람을 잇는 기본 인터페이스가 되어가고 있는 만큼, 인식 오류는 이제 더 이상 용납될 수 없다”고 말했다. 그는 QUASAR를 “ASR을 살아 있는 인프라로 바꾸는 기술”이라며, “단순한 기술적 진보를 넘어, 수십억 분의 통화 데이터를 처리하는 글로벌 콜센터에서부터 자막 기능을 개발하는 개별 개발자까지 모두에게 영향을 줄 수 있는 변화”라고 덧붙였다.

아이올라는 이번 기술로 음성 기반 AI 인터페이스의 실용성과 신뢰성을 대폭 끌어올리며, AI 음성 생태계 전반에 구조적 전환점을 만들겠다는 포부다.

본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.