AI 에이전트 ‘성과 측정’ 공백 겨냥… 보커, 와이콤비네이터서 프리시드 유치

2026년 5월 19일 23:25:23 | 손정환 기자

인공지능(AI) 에이전트 분석 플랫폼 보커(Voker)가 와이콤비네이터와 펀더스클럽으로부터 220만달러, 원화 약 33억2552만원 규모의 프리시드 투자를 유치했다고 밝혔다. 기업들이 AI 에이전트를 빠르게 도입하는 가운데, 실제 현장에서 ‘제대로 작동하는지’와 ‘사업 성과를 내는지’를 측정하는 수요가 커졌다는 판단이 배경이다.

보커는 고객 응대와 내부 업무에 투입된 AI 에이전트의 대화 데이터를 분석해 제품팀, 디자이너, 경영진이 성과를 이해할 수 있도록 돕는 플랫폼이다. 단순히 오류를 추적하는 개발자용 관측 도구를 넘어서, 실제 사용자 환경에서 어떤 요청이 들어오고 어떤 기능이 부족한지까지 파악하는 데 초점을 맞춘다.

공동 창업자이자 최고경영자(CEO) 타일러 포슬은 실리콘앵글과의 인터뷰에서 제품팀이 이제는 ‘만들 수 있느냐’가 아니라 ‘약속한 가치를 내고 있느냐’를 증명해야 하는 단계에 들어섰다고 짚었다. 그는 경영진이 앞으로 “이 에이전트가 신규 상품 판매에 얼마나 기여했느냐” 같은 질문을 던질 텐데, 많은 팀이 아직 이를 측정하거나 개선할 방법을 갖추지 못했다고 설명했다.

포슬은 거대언어모델(LLM)이 이미 사전 학습돼 있어 서비스에 AI 에이전트를 올리는 일 자체는 어렵지 않다고 봤다. 문제는 운영 이후다. 기업들이 기대했던 결과가 실제 사용자 환경에서는 다르게 나타나는 경우가 많고, 과도한 마케팅이 기대치를 지나치게 끌어올렸다는 것이다. 그는 이를 ‘무엇이든 물어보세요’ 문제라고 표현했다. 예를 들어 호텔 예약 에이전트라면 예약 업무에 특화돼야 하는데, 이용자는 점점 더 넓은 질문을 던지고 기업은 그 기대를 모두 충족시키기 어렵다는 의미다.

개발자용 도구는 많지만, 제품팀이 볼 ‘인사이트’는 부족

보커의 문제의식은 시장에 관측성과 평가 도구가 없는 데서 출발하지 않는다. 이미 관련 도구는 많지만, 대부분 개발자를 위한 추적 디버깅 중심으로 설계돼 있다는 점에 주목한다. 월간 수천건에서 수백만건의 대화가 쌓이면, 로그를 일일이 읽거나 일부만 샘플링해 성능을 판단하는 방식은 한계가 뚜렷해진다.

보커는 이런 대규모 대화 데이터를 바탕으로 어떤 상황에서 에이전트가 잘 작동하는지, 어디서 사용자가 이탈하는지, 또 어떤 새로운 요구가 생겨나는지를 분석한다고 설명했다. 회사는 이를 ‘인텐트’로 분류한다. 기존에 설계하지 않았던 질문 패턴이나 요구가 반복적으로 등장하면, 제품팀은 이를 토대로 기능을 고도화할 수 있다.

예를 들어 호텔 예약 에이전트가 숙소 내 카페나 레스토랑 관련 질문을 반복적으로 받는다면, 단순 영업시간 안내를 넘어 예약 방법, 제공 메뉴, 식사 종류 같은 정보까지 보강할 필요가 있다는 식이다. 이는 고객 만족도를 높이고, 결과적으로 AI 에이전트의 실사용 가치를 끌어올리는 단서가 될 수 있다.

포슬은 디자이너 역시 ‘사람들이 이 제품을 어떻게 쓰고 있는지’를 보고 싶어 하지만, 현재 시장의 로그 분석 도구와 평가 툴은 지나치게 기술 인력 중심이라고 지적했다. 보커는 이 공백을 메우는 ‘상위 레이어’를 지향한다. 즉, 개발자가 아닌 제품 조직 전체가 AI 에이전트의 성과를 이해하도록 돕는다는 구상이다.

월 1000건 이상 대화한 기업 겨냥… “챗GPT로 로그 분석은 한계”

보커는 현재 월간 1000건 이상의 에이전트 대화가 발생하는 기업을 주요 고객층으로 삼고 있다. 이 정도 규모부터는 수작업으로 로그를 확인하거나 기존 엔지니어링 분석 소프트웨어로 일부 기록만 들여다보는 방식이 사실상 비효율적이기 때문이다.

포슬은 흥미롭게도 자사의 주요 경쟁자 중 하나로 오픈AI의 챗GPT를 언급했다. 실제로 많은 엔지니어가 원시 로그를 챗GPT에 넣고 사용자 의도나 대화 내용을 요약해달라고 요청한다는 것이다. 다만 그는 이런 접근이 빠르게 답을 얻는 방법일 수는 있어도, 수백만건의 로그를 바탕으로 제품 성과를 통계적으로 해석하는 데는 적합하지 않다고 선을 그었다.

이는 AI 에이전트 시장 전반의 ‘지속 가능성’과도 맞닿아 있다. 기업이 과도한 기대를 심어놓고 실제 서비스 품질이 이를 따라가지 못하면 사용자 이탈이 커질 수 있어서다. 한 번 써본 고객이 불편함을 느끼고 다시 사람 중심의 기존 업무 방식으로 돌아가면, 에이전트 기반 제품은 빠르게 외면받을 수 있다.

결국 보커가 제시하는 핵심은 AI 에이전트의 기술적 오류 수정이 아니라 ‘제품화’다. 에이전트가 실제로 어떤 가치를 만들고 있는지, 어떤 요구를 놓치고 있는지, 그리고 그 정보가 경영진과 제품팀의 의사결정에 어떻게 연결되는지를 보여주는 분석 계층이 필요하다는 의미다. AI 에이전트 도입 경쟁이 확산하는 국면에서, 향후 시장의 승부처는 구축 속도보다 ‘성과를 입증하는 능력’에 달릴 가능성이 커 보인다.

TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.

본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.