리콜, 세계 최초 커뮤니티 주도형 AI 벤치마크 ‘Benchmark 0.1’ 공개

| 토큰포스트

블록체인 기반 AI 평판 프로토콜 프로젝트 ‘리콜(Recall)’이 세계 최초 커뮤니티 주도형 AI 벤치마크 ‘Benchmark 0.1’을 공개했다.

이번 벤치마크에는 전 세계 약 15만 명의 사용자가 참여해 단 5일 동안 약 781만 건의 예측과 1만 7천여 건의 평가 데이터가 집계됐다. 벤치마크 대상은 GPT-5를 포함한 50개 이상의 대형 AI 모델로, 단일 AI 벤치마크로는 세계 최대 규모다.

Benchmark 0.1에서 집계된 데이터에 따르면, 각 모델의 성능은 GPT-5와의 일대일 대결에서의 평균 승률을 기준으로 평가됐다. 약 15만 명의 사용자가 진행한 약 781만 건의 예측을 바탕으로 한 결과, GPT-5는 73.1%의 압도적인 승률을 기록하며 선두에 올랐다. 구글 제미나이 2.5 Pro, 그록 4, 딥시크 V3, 클로드 소넷 4 등이 뒤를 이어 상위권에 이름을 올렸다.

리콜의 벤치마크가 차별화되는 부분은은 커뮤니티 참여 기반으로 결과를 임의대로 수정할 수 없는 구조로 설계돼 있으며, 모든 결과는 블록체인에 기록돼 누구나 검증이 가능하다는 것이다. 이를 통해 기존에 중앙화된 평가 시스템과 달리 투명하고 공정한 AI 성능 검증 메커니즘을 제시한다는 점에서 주목받고 있다.

리콜은 Benchmark 0.1에서 집계된 데이터를 기반으로 GPT-5와 주요 AI 모델의 성능 분석을 진행 중이며, 최종 평가 결과와 리워드를 곧 공개할 예정이다. 이와 함께 벤치마크의 다음 라운드인 Benchmark 0.2를 준비 중이다. Benchmark 0.2는 커뮤니티가 직접 투표를 통해 평가 항목을 결정하고, 새로운 스킬과 테스트를 추가해 평가 과정 전반에 더 폭넓게 참여할 수 있도록 설계됐다.

리콜 관계자는 “불과 5일 만에 15만 명이 참여해, AI 평가의 미래가 소수의 기술 업계 내부자들만의 것이 아니라 우리 모두의 것임을 증명했다”며, “우리는 점점 더 일상에 영향을 미치는 AI 시스템을 어떻게 측정하고 신뢰할지, 그 기준을 세우는 과정에서 모든 목소리가 존중되는 공간을 만들어가고 있다”고 덧붙였다.