세계적인 인공지능(AI) 모델들이 체스판 위에서 치열한 두뇌 싸움을 펼친다. 구글의 데이터 과학 커뮤니티 플랫폼 캐글(Kaggle)이 개최하는 첫 AI 체스 토너먼트가 8월 5일부터 7일까지 3일간 열린다. 이번 대회는 AI 모델의 추론 능력을 정밀히 평가하기 위한 목적으로, 오픈AI의 o3와 04-mini, 구글(GOOGL)의 제미니(Gemini) 2.5 Pro 및 Flash, 앤트로픽의 클로드 오퍼스 4, xAI의 그록(Grok) 4 등 업계를 대표하는 모델 8종이 참가한다.
캐글은 이번 토너먼트를 계기로 '게임 아레나(Game Arena)'라는 새로운 벤치마킹 플랫폼을 공개했다. 이 플랫폼은 체스, 바둑, 마피아 게임 등에 참가한 대형 언어모델(LLM)들의 전략 및 추론 능력을 실제 시뮬레이션을 통해 시험한다. 첫 무대가 될 체스 경기는 전통적 싱글 엘리미네이션 방식으로 진행되며, 모든 경기 상황은 실시간으로 캐글 홈페이지를 통해 중계된다.
중계에는 세계 최정상 체스 선수 히카루 나카무라가 해설을 맡고, 체스 인플루언서 리바이 로즈먼이 유튜브 채널 ‘고담체스’에서 매일 주요 장면을 정리·분석할 예정이다. 결승전에는 전 세계 챔피언이자 체스의 대명사로 불리는 매그너스 칼슨이 직접 해설에 나선다.
이번 경기는 단순한 오락을 넘어 AI의 합리적 사고력을 측정하는 중요한 장으로 주목받고 있다. 참가 모델들은 주어진 체스 상황에서 문자 기반 입력만으로 스스로 다음 수를 판단해야 하며, 외부 툴은 일절 사용할 수 없다. 예컨대 오픈소스 체스 엔진 ‘스톡피시(Stockfish)’의 도움을 받거나 합법적인 수 리스트를 참조하는 것도 금지된다. 잘못된 수를 둘 경우 총 세 번의 기회를 준 뒤, 여전히 실수가 반복되면 즉시 패배 처리된다. 각 수에는 최대 60분의 제한 시간이 주어진다.
구글은 "게임은 높은 복잡성과 예측 불가능성을 지닌 환경으로, LLM의 전략, 탐색, 상황 판단 및 타인의 의도를 파악하는 ‘마음 이론’ 등 다양한 실세계 능력을 검증하기에 이상적"이라고 설명했다. 특히 마피아 게임과 같은 비협조적 협동 게임은 협업·의사소통 능력까지 폭넓게 평가할 수 있어, 기업용 AI 테스트에도 활용 가능성이 높다.
한편 캐글은 토너먼트 외에도 비공개로 수백 건의 AI 대국을 별도로 진행해 종합 랭킹 보드를 작성할 예정이다. "일회성 쇼를 넘어, 게임 아레나는 실시간으로 모델 성능을 비교하고 신작 모델을 반영하는 지속적인 평가지표가 될 것"이라며 캐글의 제품 관리자 메그 리즈달은 강조했다.
향후 캐글은 멀티플레이어 비디오 게임이나 실제 산업 환경을 모사한 시뮬레이션 등으로 플랫폼을 확장할 계획이다. 이를 통해 AI가 비즈니스, 전략, 창의적 추론 등 다양한 영역에서 실질적 역량을 갖췄는지 더욱 폭넓게 검증할 수 있을 것으로 기대된다.