음성 AI 스타트업 '폭풍 성장'… 유니콘·매각 잇따라

| 김민준 기자

음성 인공지능(Voice AI) 스타트업들이 벤처캐피털 업계에서 다시 주목받고 있다. 거대 투자사와 대기업이 잇따라 이 시장에 베팅하면서, 음성 중심의 기술을 보유한 기업들이 급격한 몸값 상승을 경험 중이다. 최근 1년 반 사이 여러 음성 AI 기업들의 기업가치가 세 배 이상으로 급등한 사례도 속출하고 있다. 생성형 AI 열풍이 텍스트에서 이미지로, 이미지에서 영상으로 옮겨가는 가운데, 이제는 음성이라는 인터페이스가 차세대 경쟁 핵심으로 자리 잡고 있는 분위기다.

대표적인 사례는 미국 브루클린에 본사를 둔 일레븐랩스(ElevenLabs)다. 다양한 언어의 목소리를 AI로 생성할 수 있는 플랫폼을 제공하는 이 회사는 2024년 1월 시리즈 B에서 8,000만 달러(약 1,152억 원)를 확보하며 유니콘 반열에 올랐다. 이후 1년 사이 추가로 1억 8,000만 달러(약 2,592억 원)의 시리즈 C 펀딩을 유치하고, 기업가치는 약 33억 달러(4조 7,520억 원)로 뛰었다. 여기에는 아이코닉 캐피털과 안드리센 호로위츠 등 유명 투자사들이 참여했다. 더 나아가 내부 직원을 위한 유동성 제공을 목적으로 한 세컨더리 거래에서 기업가치 66억 달러(약 9조 5,040억 원)가 책정되며 또 한 번 화제를 모았다.

이처럼 음성 AI에 대한 관심이 커지는 배경에는 기술적 성숙이 자리하고 있다. GV의 유럽지역 책임 파트너인 톰 헐름은 "음성 인식 기술이 인간 수준의 정확성에 도달했고, 대규모 언어모델이 문맥 이해력을 키우면서 제품으로 구현 가능한 수준이 됐다"고 진단했다. 이어 "사람들이 컴퓨터와 상호작용하는 데 있어 자연어와 음성이 가장 기본적이며 본능적인 방식"이라며 음성 AI가 주류가 될 수밖에 없는 흐름이라고 강조했다.

메타(Meta)는 올해 7월 음성 기반 AI 기업인 플레이AI(PlayAI)를 인수했다. 창업 2년차인 이 스타트업은 사람 목소리처럼 들리는 음성을 생성하는 기술로 주목받았다. 메타는 자체 AI 캐릭터, 웨어러블, 오디오 콘텐츠 제작 부문과의 시너지를 노리고 인수를 단행한 것으로 알려졌다. 헐름은 "자연어 중심 서비스를 직접 개발하는 데는 수년이 걸리기 때문에, 준비된 기술과 팀을 빠르게 확보하려는 인수 기회가 잇따를 것"이라고 말했다.

신생 스타트업들도 활발히 등장하고 있다. 미국 텍사스에 본사를 둔 로만AI는 음식점 고객 전화를 전자동화하는 음성 AI 시스템을 개발한 스타트업으로, 최신 시드라운드에서 350만 달러(약 50억 4,000만 원)를 유치했다. 일상 대화 수준의 자연스러운 통화 응대가 가능하다는 점을 차별점으로 내세운다. 또 다른 스타트업 메이븐AGI는 고객 응대에 특화된 음성 AI 챗봇을 개발해 델 테크놀로지스 캐피털 주도로 5,000만 달러(약 720억 원)의 시리즈 B 투자를 이끌어냈다.

이처럼 음성 AI 기술의 활용 범위는 고객지원부터 예약, 주문 시스템, 엔터프라이즈 SaaS, 헬스케어까지 무궁무진하게 확장 중이다. 음성 인식 및 분석 엔진을 개발해 자체 API를 통해 다양한 스타트업에 솔루션을 공급하는 어셈블리AI(AssemblyAI)는 대표적인 인프라 기업이다. 이 회사의 서비스는 실제 고객센터, 세일즈 콜, 영상 회의, 의료 인터뷰 기록 등에서 실시간으로 활용된다. 1년 새 API 트래픽이 250% 증가했으며, 매출 증가세도 두드러진다.

GV의 헐름은 "기술이 사람에 맞춰가는 전환점이 왔다"며 "음성과 자연어는 기술 접근성을 혁신하는 수단이며, 디지털 세계에서의 '보편 조정기(universal remote)'가 될 것"이라고 평가했다. 대형 플랫폼 기업과 신생 스타트업이 이 시장을 선점하기 위해 다퉈 움직이는 이유도 여기에 있다. 음성 중심의 AI 인터페이스 경쟁은 이제 막 본격화되고 있으며, 향후 기술과 자본이 맞물리며 더 큰 진화를 예고하고 있다.