실제 사용 환경에서 대형언어모델(LLM)의 성능을 측정하기 위한 새로운 평가 시스템이 등장했다. 알리바바 산하 앤트 그룹(Ant Group)과 관련된 연구팀은 기존의 실험실 기반 벤치마크의 한계를 지적하며, 실사용자의 선호도를 반영한 순위를 매기는 ‘인클루전 아레나(Inclusion Arena)’를 공개했다.
기존 벤치마크는 대부분 정적인 테스트 세트와 환경에서 모델 능력을 평가하면서, 실제 애플리케이션에서의 유용성과는 괴리가 있었다. 이를 보완하기 위해 인클루전 아레나는 실제 AI 기반 앱에서 사용자가 여러 모델의 응답 중 더 나은 것을 선택하게 하고, 이 데이터를 바탕으로 성능 순위를 도출하는 방식을 채택했다. 즉, 실제 사용자 선호도를 기준으로 대형언어모델들을 비교하는 것이다.
해당 연구는 최근 공개된 논문에서 상세히 소개됐다. 연구팀은 “인클루전 아레나는 멀티턴 대화가 일어나는 실사용 환경에서 무작위로 모델 간 경쟁을 유도하며 점수를 산정한다”며, “이러한 방식은 기존의 소셜 태스크 기반 크라우드소싱보다 뛰어난 현실 반영력을 가진다”고 설명했다.
이 시스템은 수학적으로 상대 비교를 통해 순위를 도출하는 브래들리-테리(Bradley-Terry) 모델을 기반으로 설계됐다. 이는 기존 체스 평가방식으로 알려진 엘로(Elo) 방식보다 평가가 안정적이라는 것이 연구진의 주장이다. 또한 새로운 모델을 처음 등록할 때는 ‘배치 매치’ 시스템을 통해 초기 순위를 추정하고, 그 이후엔 근접한 성능의 모델끼리 비교하는 ‘근접 샘플링’ 방식을 적용해 효율을 높였다.
현재 인클루전 아레나는 조이랜드(Joyland)라는 캐릭터 기반 앱과 교육 커뮤니케이션 앱 티박스(T-Box)에 실험적으로 적용돼 있다. 사용자가 앱과 대화하면서 받은 응답을 토대로 더 나은 답변을 고르면, 그 선택이 데이터로 축적된다. 유저들은 어떤 모델이 응답을 생성했는지 모르는 상태에서 판단하기 때문에 보다 객관적인 피드백이 가능하다는 분석이다.
2025년 7월까지의 실험 결과 50만 건이 넘는 쌍대 비교(pairwise comparison) 데이터가 수집됐다. 초기 결과에 따르면 앤트로픽(Anthropic)의 클로드 3.7 소넷, 딥시크(DeepSeek) v3-0324, 클로드 3.5 소넷 등이 상위권을 기록했다. 현재 참여 앱의 활성 사용자 수는 약 4만 6,600명이며, 연구팀은 앞으로 오픈 얼라이언스 방식으로 더 많은 앱과 평가 데이터를 확보할 계획이다.
기업들이 다양한 LLM을 도입하고자 할 때, 기존 벤치마크만으로 실제 성능을 판단하기란 쉽지 않다. 인클루전 아레나처럼 실사용 환경을 반영한 랭킹 시스템은 기술 담당자들에게 보다 신뢰도 높은 선택 기준을 제공할 수 있다. 물론 궁극적으로는 각 조직이 자체적으로 테스트를 해야 하지만, 이 같은 툴은 초기 모델 선별 과정의 효율을 높일 수 있다.
AI가 기업 업무 전반에 본격적으로 확산되면서, LLM의 평가 지표와 벤치마크 역시 그 쓰임새에 맞게 진화하고 있다. 인클루전 아레나는 그 변화의 최전선에 선 평가 시스템으로, 테크 기업뿐 아니라 다양한 산업에서 주목할 필요가 있다.