AI 에이전트 실패의 진짜 이유는?… 성능보다 중요한 '운영 인프라'

| 김민준 기자

AI 에이전트를 서둘러 상용화하는 기업들이 늘고 있는 가운데, 상당수가 뼈아픈 실패를 경험하고 있다. 그 원인은 기술 자체가 아니라, 평가와 조율 인프라 부족이라는 근본 구조에 있다는 분석이 나왔다. 미국 현지 시각으로 6월 26일 열린 'VB 트랜스폼 2025' 행사에 참여한 주요 AI 분야 리더들은 대규모 AI 에이전트 구축에서 얻은 경험을 공유하며, 성공과 실패를 가르는 핵심 전략을 논의했다.

이번 행사에서는 파운데이션 캐피털의 조앤 첸 파트너의 사회로 로켓 컴퍼니즈의 CTO 션 멜호트라, 센드버드 제품총괄 샤일레시 날라와디, 코그니지의 AI 트랜스포메이션 총괄 티스 반더스가 패널로 참여했다. 세 기업은 각각 주택 금융, 고객 응대, 대규모 콜센터 자동화를 중심으로 AI를 실제 비즈니스에 통합해온 사례를 소개했다.

이들이 공통적으로 강조한 성공요인은 ‘AI 모델보다 먼저 평가 및 운영 인프라를 갖춰야 한다’는 점이다. 단순히 뛰어난 모델을 빠르게 적용하는 것만으로는 대규모 환경에서 안정적으로 작동할 수 없다는 교훈이었다.

AI 도입 당시 첫 번째 화두는 *비용 절감*이었다. 로켓 컴퍼니즈의 멜호트라는 하루 이틀 만에 개발한 작은 에이전트 하나가 연간 100만 달러(약 14억 4,000만 원) 이상의 비용을 절감한 사례를 언급하며, 단순한 문제라도 AI가 엄청난 비용 효율을 가져올 수 있음을 강조했다. 코그니지의 반더스 역시 고객센터 전화를 AI 에이전트로 분할 처리함으로써 단순 통화 처리 시간 자체를 줄여 운영 효율을 높이고 있다고 말했다.

하지만 최근 기업들은 비용 절감을 넘어 매출 증대와 선제적 고객 대응이라는 새로운 ROI 지표에 주목하기 시작했다. 센드버드의 날라와디는 고객이 문제를 인지하기도 전에 AI가 먼저 연락을 취하는 ‘사전 대응형 고객 서비스’를 소개하며, 기업 수익을 창출할 수 있는 새로운 흐름을 강조했다.

실전에서는 *갑작스러운 실패*도 적지 않았다. 가장 중요한 실패 원인은 '에이전트 품질을 사전에 평가하는 시스템의 부재'였다. 날라와디는 "소프트웨어 개발에서 유닛 테스트 없이 코드를 배포하지 않듯, AI도 유사한 검증 체계가 필요하다"고 말했다. AI 에이전트가 대화형 시스템으로 운용되다보니 가능한 모든 상황을 테스트하는 것이 사실상 불가능하며, 수많은 예외 상황이 실제 배포 후에야 드러난다는 것이다.

이 문제를 해결하기 위한 시도로 소개된 것은 *AI 기반의 시뮬레이션 테스트*였다. 코그니지의 반더스는 다국어, 감정 상태, 변칙적 어휘 등 다양한 조건에서 ‘AI가 AI를 시험하는’ 방식의 시뮬레이션 기능을 개발 중이라고 밝혔다. 단순한 품질 테스트가 아닌, 다양한 사용자 상황을 예측해 반복 학습이 이루어질 수 있게 한 방식이다. 반더스는 "우리는 알지 못하는 것을 알 수 없다는 것이 가장 큰 도전"이라며, 테스트 복잡성이 인간 QA의 한계를 뛰어넘고 있다고 진단했다.

앞으로 *AI 인프라 복잡도*는 기하급수적으로 증가할 전망이다. 현재 대부분의 AI 에이전트는 단일 작업을 독립적으로 처리하지만, 향후 수백 개의 에이전트가 서로 데이터를 공유하고 협업하게 되면 관리 체계도 전혀 다른 수준으로 재설계해야 한다. 첸은 "이 시스템이 이론대로 전개되면 수백 개의 에이전트가 조직 내에서 서로에게 배우며 협업하게 되고, 그만큼 불확실한 변수와 실패 가능성도 폭발적으로 증가하게 된다"고 지적했다.

기업들이 지금 투자해야 하는 것은 성능 좋은 모델도 아니고, 더 새롭고 빠른 기능도 아니다. 실제 현장에서 *확장성 있는 관리 인프라*를 어떻게 설계할 것인가가 AI의 ROI를 결정짓는 분기점이 되고 있다. 이에 따라 엔터프라이즈 AI 전략에서 ‘서두르지 않는 도입’이 추구해야 할 핵심 방향성이 될 전망이다.