AI 모델의 성능 평가를 전문으로 하는 스타트업 LMArena가 최근 시리즈 A 투자에서 1억 5,000만 달러(약 2,160억 원)를 유치하며 기업 가치를 17억 달러(약 2조 4,480억 원)로 끌어올렸다. 이번 투자 라운드는 펠리시스(Felicis)와 UC 인베스트먼츠(UC Investments)가 주도했으며, 안드레센 호로위츠(Andreessen Horowitz), 크라이너 퍼킨스(Kleiner Perkins), 라이트스피드 벤처 파트너스(Lightspeed Venture Partners) 등 실리콘밸리 유력 벤처캐피털들이 대거 참여했다. LMArena는 2023년 UC 버클리 연구자 두 명이 공동 창업한 기업으로, 창업 1년도 채 되지 않아 급격히 몸값을 높이고 있다.
LMArena가 해결하고자 하는 핵심 과제는 기존 AI 성능 평가 방식이 갖고 있는 ‘데이터 오염’ 문제다. 이는 AI 모델이 미리 학습한 외부 데이터 안에 이미 정답이 존재할 경우, 모델의 응답이 실제 성능을 왜곡할 수 있다는 점에서 생긴 단점이다. 회사는 이를 극복하기 위해 고정된 평가 문항이 아닌, 실사용자들이 생성한 동적 프롬프트를 활용하는 구조를 채택했다.
LMArena는 클라우드 기반 플랫폼을 운영 중이며, 사용자 인터페이스는 챗봇 방식으로 구성되어 있다. 이 인터페이스에 입력된 질문은 서로 다른 두 개의 AI 모델에 의해 처리되고, 이용자는 결과물을 비교한 뒤 우수한 응답을 선택하게 된다. 이러한 실시간 피드백은 AI 벤치마크 평가 기준으로 변환되어 저장된다. 회사는 이 데이터를 집계해 성능 우수 AI 모델 순위표를 주기적으로 발표하고 있다.
현재 이 순위표의 1위는 구글(GOOGL)이 작년 말 공개한 'Gemini 3 Pro'다. 이어 'Gemini 3 Flash'와 일론 머스크(Elon Musk)의 xAI가 개발한 'Grok 4.1' 모델이 각각 상위권에 포진하고 있다. 오픈AI(OpenAI) 역시 GPT-5 모델을 외부 공개 전 'summit'이라는 코드명으로 LMArena에서 선제 테스트한 바 있다.
LMArena는 이번 투자 유치를 통해 자사 AI 평가 플랫폼의 운영 효율화, 연구 개발 확대 및 인재 채용에 속도를 낼 계획이다. 특히 지난해 상업용 서비스로 출범시킨 ‘AI 이벨류에이션즈(AI Evaluations)’가 연간 소비 금액 기준으로 3,000만 달러(약 432억 원)를 돌파한 것으로 알려져, 향후 수익 기반도 견고히 다질 수 있을 것으로 기대된다.
회사를 공동 창업한 아나스타시오스 안젤로풀로스(Anastasios Angelopoulos) CEO는 “AI가 인류에게 어떤 가치를 제공하는지를 검증하지 않는다면, 그 기술을 올바르게 활용할 수 없다”며 “진정한 가치 평가는 실제 사용자 경험을 기반으로 이루어져야 한다”고 강조했다.




