AI 데이터 관찰 전문 스타트업 몬테카를로가 인공지능 시스템의 신뢰성을 정밀하게 추적하고 분석할 수 있는 통합 솔루션 ‘에이전트 옵저버빌리티(Agent Observability)’를 공개했다. 이번 제품은 AI 애플리케이션의 입력과 출력을 모두 실시간으로 모니터링하고 문제를 사전에 감지해 고객 신뢰를 훼손하는 환각(hallucination) 발생을 줄이겠다는 목적 아래 설계됐다.
몬테카를로는 ML 기반 이상 탐지 기능을 바탕으로 데이터 품질 관리를 자동화해온 업체로, 그동안 데이터 파이프라인 모니터링에 본격적으로 활용되어 왔다. 새롭게 출시된 에이전트 옵저버빌리티는 이 기술을 AI 에이전트 영역까지 확장한 것으로, AI 모델이 보여주는 이상 행동을 조기에 포착하고 원인을 명확히 파악할 수 있도록 돕는다. 특히 데이터 수집, 가공, 정보 검색, 응답 생성의 전 과정에서 데이터 흐름을 추적함으로써 입력과 출력 모두에 걸친 전방위적 가시성을 확보했다는 점에서 기존 솔루션과 차별화된다.
눈길을 끄는 부분은 LLM-as-a-Judge 기법의 도입이다. 이는 고도 학습된 대형 언어 모델이 다른 AI 시스템의 출력을 평가하는 방식으로, 응답의 정확성·관련성·품질 등을 기준으로 자동 판단한다. 사용자 측에서는 사전 정의된 품질 기준에 맞춰 LLM의 판단 기준을 설정할 수 있어, 부적절한 출력이 감지되면 즉시 알림을 받을 수 있다.
뿐만 아니라 코드 작성 없이도 세팅 가능한 로우코드 평가 모니터 기능을 통해, AI 모델이 데이터를 학습하면서 발생하는 성능 ‘드리프트’를 실시간으로 체크할 수 있는 점도 주목된다. 응답의 가독성이나 문맥 일관성이 약화될 경우 미리 징후를 포착해 운영자가 문제를 치료할 수 있도록 설계됐다.
이와 함께 이용자 쿼리, 프롬프트, 지연 시간, 수행 오류 등의 다양한 텔레메트리 데이터도 병행 수집되며, 이 정보는 고객사의 기존 데이터 환경 안에서 운영되기 때문에 이상 징후 발생 시 문제의 근원 데이터를 손쉽게 추적할 수 있다.
몬테카를로는 현재 전 세계 기업의 80% 이상이 AI 에이전트를 채택하고 있는 상황에서, 이들 시스템의 신뢰성을 제대로 보장하지 못하는 점이 가장 큰 리스크라고 지적했다. 실제로 가트너에 따르면 30%의 AI 프로젝트가 도입 후 유지 또는 확장이 어려워 결국 폐기되는 것으로 나타났다.
바 미세스(Barr Moses) 몬테카를로 최고경영자는 “AI 신뢰성은 기업 성장의 선택이 아닌 필수 요건이자, 고객 신뢰와 수익성 유지에 직결된다”며 “각각의 문제를 따로 해결하려는 기존의 포인트 솔루션은 더 이상 효과적이지 않다”고 강조했다. 그녀는 이번 제품이 AI 입력과 출력을 통합 추적하는 단일 플랫폼 비전의 핵심이며, 고객들이 AI 시스템을 안정적으로 운영하는 데 있어 결정적 전환점이 될 것으로 내다봤다.
컨스텔레이션 리서치의 홀거 뮐러(Holger Mueller) 애널리스트는 “오늘날 대부분의 소프트웨어처럼 옵저버빌리티 역시 AI의 영향력을 피할 수 없게 됐다”며 “이제 중요한 것은 ‘AI를 감시하는 AI’를 누가 담당해야 하는가다. 벤더인가, 혹은 몬테카를로와 같은 플레이어인가”라고 말하며 향후 경쟁 구도를 예고했다.