TPC로
네이버페이 교환

링크복사
공유
댓글
추천
스크랩
인쇄
글자크기

링크가 복사되었습니다.

글자크기

가

작게

가

보통

가

크게

가

매우크게

인공지능 테크

에이전틱 AI 거버넌스, ‘검증’이 병목…이벌 엔지니어링으로 돌파구 찾나

김서린 기자

2026.05.18 (월) 01:40

기업 업무에 AI 에이전트가 빠르게 확산되면서 통제를 위한 에이전틱 AI 거버넌스 수요가 커졌지만, 다중 검증 모델 방식은 지연과 토큰 비용이 병목으로 떠올랐다고 전했다.

갈릴레오 AI는 평가 전용 경량 모델 ‘루나’와 환각 탐지 ‘체인폴’로 운영 단계 검증 비용·속도 문제를 줄이려 하고, 시스코도 인수 추진으로 경쟁이 본격화됐다고 밝혔다.

에이전틱 AI 거버넌스, ‘검증’이 병목…이벌 엔지니어링으로 돌파구 찾나 / TokenPost.ai

AI 에이전트가 기업 업무에 빠르게 스며들면서 이를 통제하는 ‘에이전틱 AI 거버넌스’의 중요성도 커지고 있다. 문제는 현재 시장의 주요 해법이 성능 저하와 비용 증가라는 현실적 한계에 막혀 있다는 점이다.

검증 에이전트가 핵심… 하지만 느리고 비싸다

최근 업계가 주목하는 방식은 여러 개의 독립된 검증 모델이 AI 에이전트의 행동을 동시에 점검하는 구조다. 특정 에이전트가 업무를 수행할 때 복수의 검증기가 결과의 정확성, 정책 준수 여부, 위험 행동 가능성을 확인하고, 일정 수준 이상 동의가 모여야 다음 단계로 넘어가게 하는 방식이다.

이론적으로는 AI 에이전트의 자율성을 유지하면서도 통제를 강화할 수 있는 방법이다. 다만 실제 현장에서는 이 체계가 아직 초기 단계에 머물러 있다. 관련 솔루션을 제공하는 기업은 늘고 있지만, 운영 환경에서 검증을 계속 돌리기에는 지연 시간과 토큰 비용 부담이 지나치게 크다는 지적이 공통적으로 나온다.

‘이벌 엔지니어링’이 부상한 이유

이 같은 병목을 풀기 위해 떠오른 분야가 ‘이벌 엔지니어링(eval engineering)’이다. 이는 대형언어모델(LLM)이나 AI 에이전트의 출력과 행동을 평가하는 체계를 설계하고 운영하는 작업을 뜻한다.

핵심 기술 중 하나는 ‘LLM-as-a-judge’다. 또 다른 LLM이 AI의 답변을 심사위원처럼 평가해 정확성, 관련성, 완성도, 정책 적합성을 채점하는 방식이다. 여기에 소프트웨어 테스트와 관측성 기능을 결합해 에이전트의 품질을 점검한다.

현재 이벌 엔지니어링은 크게 세 갈래로 활용된다. 첫째는 배포 전 테스트다. 정식 운영에 투입하기 전 정상 입력, 예외 상황, 공격성 입력 등을 넣어 성능을 점검하는 용도다. 이 경우 실제 서비스 환경에서 검증을 돌리는 것이 아니기 때문에 속도와 비용 부담이 상대적으로 적다.

실시간 자동화보다 ‘의사결정 지원’에 먼저 쓰인다

둘째는 의사결정 지원이다. 일부 기업은 AI 에이전트가 독자적으로 행동하게 하기보다, 입력된 데이터를 검토하고 사실관계를 검증한 뒤 더 신뢰도 높은 답변을 제시하는 데 이벌 엔지니어링을 활용하고 있다.

클로버 AI의 경우 데이터를 입력받아 각 사실을 분해한 뒤 정확성과 상반된 관점까지 함께 분석해 응답을 만든다. 이는 위험한 자동화 워크플로 대신 측정 가능한 판단 시스템을 제공하는 접근이다. 실시간 자동화가 아니기 때문에 비용과 지연 문제도 비교적 덜하다.

진짜 승부처는 운영 단계의 ‘전 생애주기’ 거버넌스

시장의 관심이 가장 큰 영역은 개발부터 운영까지 전 과정에서 AI 에이전트를 지속적으로 점검하는 ‘전 생애주기’ 거버넌스다. 에이전트 단위뿐 아니라 여러 에이전트가 연결된 워크플로 전체를 평가하고, 이상 징후나 성능 저하를 감지해 다시 개발·배포 과정에 반영하는 구조다.

맥심 AI는 개발 단계의 ‘오프라인’ 평가와 운영 단계의 ‘온라인’ 평가를 함께 제공한다. 특히 운영 중에는 모든 상호작용을 전수 검사하기보다 위험도가 높은 사례를 중심으로 샘플링해 토큰 비용과 지연을 줄인다.

아리즈 AI도 경량 모니터링을 상시로 돌리고, 위험 상황에서만 고비용 평가를 추가하는 방식으로 대응한다. 컨피던트 AI 역시 관측성, 추적, 실시간 모니터링을 결합하고 운영 데이터를 다시 평가 데이터셋에 반영하는 구조를 취한다. 공통점은 ‘전부 검사’ 대신 ‘선별 검사’로 비용 문제를 우회한다는 점이다.

갈릴레오 AI, 비용·성능 병목 해법으로 부상

이 가운데 갈릴레오 AI는 비용과 성능의 병목을 가장 적극적으로 풀고 있는 사례로 꼽힌다. 이 회사는 ‘체인폴(ChainPoll)’이라는 환각 탐지 기법과 ‘루나(Luna)’라는 전용 평가 모델을 앞세운다.

체인폴은 단계별 추론과 반복 평가를 결합해 결과의 신뢰도를 높이는 방식이다. 여기에 특화 모델 루나를 적용해 일반 목적 LLM보다 훨씬 적은 토큰으로 평가를 수행하도록 했다. 쉽게 말해 범용 모델 대신 평가 전용 경량 모델을 써서 속도와 비용을 동시에 낮추는 전략이다.

이 구조 덕분에 갈릴레오 AI는 경쟁사와 달리 운영 환경에서 100% 샘플링, 즉 전수 수준의 관측성을 제공할 수 있다고 주장한다. 비동기식 사후 평가나 일부 데이터만 보는 방식보다 더 넓은 가시성을 확보할 수 있다는 설명이다.

대형 기술기업도 경쟁 가세… 시장 화두는 결국 ‘더 싸고 빠르게’

이벌 엔지니어링 경쟁은 스타트업에만 국한되지 않는다. 구글, 마이크로소프트($MSFT), IBM($IBM) 같은 대형 기술기업도 관련 기술을 고도화하고 있다. 시스코($CSCO)는 갈릴레오 AI 인수를 추진하며 이 시장에 본격 진입하고 있다. 인수 이후 해당 기술은 시스코의 스플렁크 조직으로 편입될 가능성이 크다.

[온체인분석] 토요일 새벽에 삼성전자를 산다 — '주식 Perp'의 정체

알파리포트 전문 보기 →

핵심은 에이전틱 AI 거버넌스의 기술 경쟁 자체보다, LLM 기반 서비스 전반이 비용과 지연의 벽에 부딪히고 있다는 점이다. 모델이 강력해질수록 더 많은 토큰과 연산 자원이 필요해지고, 기업은 결국 ‘더 좋은 성능’만이 아니라 ‘더 빠르고 더 저렴한 운영’을 요구하게 된다.

결국 AI 시장은 이제 성능 경쟁에서 한 걸음 더 나아가, 비용 효율과 운영 안정성을 따지는 성숙 단계로 이동하고 있다. 에이전틱 AI 거버넌스는 그 변화를 가장 선명하게 보여주는 분야로 평가된다.

TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.

본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.

광고문의 기사제보 보도자료

#에이전틱AI거버넌스 #이벌엔지니어링 #LLM-as-a-judge #갈릴레오AI #체인폴 #루나 #시스코 #스플렁크 #AI에이전트 #모니터링

텔레그램에서 토큰포스트 속보 보기