AI 에이전트의 개발이 급속도로 진화하는 가운데, 세일즈포스가 공개한 새로운 오픈소스 도구 'MCPEval'이 기업들의 AI 평가 체계를 획기적으로 바꾸고 있다. 현재 기업들이 널리 도입하고 있는 모델 컨텍스트 프로토콜(Model Context Protocol, MCP) 기술을 기반으로 한 MCPEval은 에이전트가 실제 툴을 사용하는 방식까지 정밀하게 검토할 수 있는 자동화 평가 도구다.
전통적인 AI 평가 방식이 고정된 태스크 위주로 진행돼 실제 환경에서의 성능을 정확히 반영하지 못했다는 점에서, MCPEval은 '에이전트의 행동 궤적과 툴 상호작용 데이터'를 체계적으로 수집해 구체적이고 실행 가능한 데이터를 제공한다. 세일즈포스 측은 이를 통해 에이전트 모델의 반복 개선이 가능해졌으며, 고품질 데이터를 즉각 활용할 수 있다는 점도 큰 장점이라고 강조했다.
MCPEval의 구조는 태스크 생성과 검증, 모델 평가로 구성돼 있다. 사용자는 MCP 서버와 그 안의 특정 툴, 평가 모델을 선택할 수 있고, 이후 자동으로 생성된 태스크가 에이전트에게 주어지며, 그 수행 합리성을 기반으로 평가가 이뤄진다. 수집된 툴 호출 데이터와 실행 결과는 즉시 보고서로 정리돼 기업이 실제 도입 환경에서 에이전트가 얼마나 효과적으로 작동할 수 있는지 판단할 수 있다.
세일즈포스의 시니어 AI 연구 매니저 셸비 하이넥(Shelby Heinecke)은 “이제는 에이전트를 어떻게 배포할 것인지만이 문제가 아니라, 그들이 과연 제대로 작동하는지를 구조적으로 평가해야 할 시점”이라고 말했다. 그는 MCP 자체가 새로운 기술 패러다임이기 때문에, MCPEval처럼 실제 MCP 환경 내에서 평가할 수 있는 수단이 필요하다고 덧붙였다. 특히 MCPEval은 툴 선택이나 연동 흐름 분석에 유용해, 에이전트의 잠재적 결함을 초기에 발견하고 개선 작업까지 수행할 수 있는 일종의 원스톱 플랫폼으로 기능한다.
MCPEval은 GPT-4 같은 최신 대형언어모델(LLM)과 연동해 정확도를 높이는데, 세일즈포스는 오픈소스 툴킷을 통해 다양한 모델을 자유롭게 접목시킬 수 있도록 지원하고 있다. 각 기업은 자신이 평소 활용하는 LLM을 선택해 보다 친숙한 환경에서 에이전트를 검증할 수 있다.
한편, 에이전트 평가에 대한 산업 전반의 관심이 높아지며 다양한 솔루션이 등장하고 있다. 가령 갈릴레오(Galileo)는 툴 선택 정확도 검증 프레임워크를 공개했고, 싱가포르 경영대학교는 규칙 기반 평가 시스템 에이전트스펙(AgentSpec)을 제시했다. 미국 매사추세츠대학 연구진이 발표한 MCP-Radar와 중국의 MCPWorld 역시 각각 수학, 소프트웨어 엔지니어링에서부터 GUI 및 API 기반 평가까지 영역을 확장하며 주목받고 있다.
하이넥 연구원은 “이런 평가 프레임워크들은 모두 중요한 출발점이지만, 진짜 우선돼야 할 것은 도메인 맞춤형 평가 체계”라고 강조했다. 에이전트가 실제 투입될 환경을 반영한 시나리오 기반의 평가가 반드시 필요하다는 지적이다.
결국 MCPEval은 AI 에이전트 도입을 본격화하는 기업들에게 있어 신뢰성과 성과 검증이라는 핵심 관문을 통과하기 위한 유력한 도구로 자리 잡을 전망이다. 실제 현장에서 쓰일 환경에서 직접 작동하며 생긴 데이터를 그대로 수집하고 분석할 수 있는 점이 MCP 기반 AI 기술의 성공 확산에 중요한 역할을 하게 될 것으로 보인다.