GPT-5도 못 푼 과제 절반... 세일즈포스, AI 현실성 벤치마크 공개

| 김민준 기자

기업용 인공지능(AI) 시장이 빠르게 진화하고 있는 가운데, 세일즈포스(Salesforce)가 공개한 새로운 벤치마크 시스템이 업계의 주목을 받고 있다. ‘MCP-유니버스(MCP-Universe)’로 명명된 이번 공개 벤치마크는 실제 환경에서 AI에이전트와 언어모델이 어떻게 상호작용하는지를 테스트하기 위해 설계됐다. 초기 테스트 결과, GPT-5는 가장 높은 성능을 보였지만 전체 과제의 절반 이상을 완벽히 해결하지 못하는 등 한계도 여실히 드러났다.

세일즈포스 AI 리서치팀은 모델 컨텍스트 프로토콜(Model Context Protocol, MCP)을 기반으로 실제 업무 도구와 상호작용하는 방식의 현실적인 평가 지표가 필요하다고 결론짓고, MCP-유니버스를 개발했다. 기존의 벤치마크가 문장 이해나 수학 문제 풀이 등 고립된 기능에 집중한 반면, MCP-유니버스는 복잡한 업무 시나리오 전체 속에서 모델을 테스트한다는 점에서 차별화된다.

MCP-유니버스는 지리 정보 탐색, 코드 리포지터리 관리, 금융 분석, 3D 설계, 브라우저 자동화, 웹검색 등 여섯 가지 영역에서 총 231개의 과제를 직접 수행하도록 모델에 부여한다. 테스트는 구글 맵스, 깃허브, 야후 파이낸스, 블렌더, 플레이라이트, 구글 서치 등 실제 MCP 서버와 API를 이용해 진행되며, 실행 기반 평가 방식으로 결과를 측정한다.

세일즈포스 AI 리서치 디렉터인 리쥰난(Junnan Li)은 VentureBeat와의 인터뷰에서 “대부분의 최신 모델이 여전히 ‘장문 문맥 유지’와 ‘미지의 도구 활용’에서 큰 제약을 보인다”고 지적했다. 그는 “복잡하거나 긴 입력 데이터를 처리할 때 정보 추적이나 논리적 사고에서 오류가 발생하고, 처음 접하는 도구를 사람처럼 자연스럽게 사용하는 데에도 한계가 있다”고 덧붙였다.

이러한 문제는 성능 데이터를 통해서도 확인된다. 세일즈포스는 GPT-5를 비롯해 구글의 제미니 2.5, xAI의 그록(Grok)-4, 오픈소스 모델인 GLM-4.5 등 주요 대형언어모델(LLM)들을 비교 테스트했다. GPT-5는 금융 분석 영역에서 가장 높은 정확도를 기록했고, 브라우저 자동화는 그록-4가 가장 우수했다. 그러나 전체적으로는 장문 과제나 미지의 도구가 포함된 과제에서 대부분 모델이 50% 이상 실패했다.

벤치마크 방식에서도 기존 평가 방법에 변화를 줬다. 세일즈포스는 LLM이 다른 모델을 평가하는 ‘LLM-심판(LM-as-a-judge)’ 방식 대신, 실제로 과제를 수행하여 결과를 도출하는 실행 중심 평가(execution-based evaluation)를 채택했다. 정답 형식 판별, 정적 기준 평가, 실시간 데이터 기반의 동적 평가 등 세 가지 평가자로 구성된 프레임워크를 통해 신뢰도도 확보했다.

세일즈포스는 이번 MCP-유니버스를 통해 모델의 약점을 보완하고, 기업들이 AI 도입 전 실제 업무에 대한 준비도를 평가하는 실질적 도구로 활용하길 기대하고 있다. 리 디렉터는 “이번 벤치마크는 단순한 성능 비교 이상의 의미를 지닌다”며, “기업들이 자사 워크플로우에 AI를 어떻게 통합할지 판단하는 데 중요한 이정표가 될 것”이라고 말했다.

오픈소스 에이전트 평가 프레임워크인 MCPEvals와 새로운 벤치마크인 MCP-Radar, MCPWorld 등도 속속 등장하면서, 앞으로 LLM의 실용성과 한계를 입체적으로 파악할 수 있는 도구 개발이 가속화될 전망이다. 이번 결과는 AI 모델의 구체적 제약을 조명하면서도, 장기적인 성능 개선을 위한 명확한 방향을 제시한다는 점에서 업계 주요 벤치마크로 자리 잡을 가능성이 높다.