리서치 기관 ‘포필라스(FourPillars)’가 블록체인 기반 AI 평판 프로토콜 ‘리콜(Recall)’을 다룬 심층 리포트를 공개했다. 이번 리포트는 기존 AI 벤치마크가 지닌 구조적 한계를 짚고, 리콜이 구글 페이지랭크(PageRank)와 폴리마켓(Polymarket)의 성공 모델을 결합해 ‘에이전트 인터넷(Internet of Agents)’ 시대의 핵심 게이트웨이로 자리매김할 것이라고 분석했다.
리포트에 따르면, 오늘날 AI 모델의 성능은 MMLU, GSM8K, HumanEval과 같은 전통적 벤치마크로 평가되고 있으나, 스탠퍼드 연구 결과 60여 개 주요 벤치마크의 절반 이상이 상위권 모델 간 유의미한 성능 차이를 구분하지 못했다. 동일 환경에서 반복 테스트 시 점수가 1~3% 범위에서 흔들리거나 순위가 뒤바뀌는 경우도 확인됐다.
포필라스는 “이러한 재현성 부족과 데이터 누출 문제는 벤치마크 점수와 실제 사용자 경험 간 괴리를 키우고 있다. 오픈AI가 자체 o3 모델과 관련한 벤치마크 데이터셋 누출 논란은 이러한 불신을 단적으로 보여준다”고 리포트를 통해 전했다.
리콜은 이러한 문제를 극복하기 위해 ‘커뮤니티 주도형 온체인 대회’를 도입했다. AI 에이전트는 실제 시뮬레이션 환경에서 경쟁하며 성능을 입증하고, 모든 결과는 블록체인에 기록돼 누구나 검증할 수 있다. 대회를 통해 축적된 데이터는 에이전트 랭크, 큐레이션 마켓, 스킬 풀, 예측 프로그램 등으로 연결돼 평판 시스템을 형성한다.
포필라스는 리포트에서 특히 “리콜이 블록체인 위에서 작동하기 때문에 단순한 기술적 수단을 넘어 신뢰와 지속성을 확보할 수 있다”고 강조했다. 블록체인을 통해 기록된 데이터는 변조가 불가능하며, 검증 가능하기 때문에 누구나 평가 과정과 결과를 확인할 수 있기 때문이다. 이는 기존의 불투명한 기업 주도 벤치마크와의 가장 큰 차별점이다.
또한 리콜의 토큰 이코노미는 사용자들의 장기적인 참여를 유도하는 인센티브 구조라고 평가했다. 큐레이터는 신뢰하는 AI 에이전트에 토큰을 스테이킹하고, 성과에 따라 보상을 받는다. 에이전트 운영자 역시 성과에 기반해 평판 및 보상을 획득하므로 지속적인 성능 개선을 추구하게 된다. 포필라스는 이 구조가 커뮤니티를 자율적으로 유지시키는 지속 가능한 벤치마크 생태계를 만들어낸다고 평했다.
리콜은 실제로 성과 또한 내고 있다. 리콜에 따르면 최근 진행한 커뮤니티 주도형 AI 벤치마크 ‘Benchmark 0.1’에서 단 5일 동안 전 세계 약 15만 명의 사용자가 참여해 약 781만 건의 예측과 1만 7천여 건의 평가 데이터가 집계됐으며, 크립토 트레이딩 챌린지에서는 10개 AI 에이전트가 참가해 7일간 1억4천3백만 달러 규모의 모의 거래를 실행하고 최고 250%의 수익률을 기록했다.
포필라스는 “리콜이 그리는 비전이 과거 인터넷과 금융시장의 궤적과 맞닿아 있다”고 밝혔다. 구글이 페이지랭크 알고리즘을 통해 초창기 난립하던 웹사이트들을 연관성과 신뢰도에 따라 정리하며 검색 방식을 혁신한 것처럼, 리콜이 에이전트 인터넷에서 사용자가 필요한 AI 에이전트를 신속하게 탐색할 수 있게 하는 기반이 되고자 한다는 것이다.
또한, 폴리마켓이 2024년 미국 대선에서 4억 6천만 달러 이상의 미결제 약정을 기록하며 집단 지혜와 인센티브를 활용한 신뢰도 높은 예측 시장으로 자리잡은 것처럼, 리콜은 커뮤니티 스테이킹과 온체인 대회를 통해 에이전트 성능을 공정하게 평가하고 있다고 전했다.
포필라스는 “리콜은 AI의 진보를 검증 가능하게 측정하는 새로운 방식을 제안하고 있으며, 사용자가 가장 먼저 마주하는 터치포인트로 자리매김할 가능성을 갖는다”며, “과연 리콜이 에이전트 인터넷의 첫 번째 게이트웨이로 거듭날 수 있을지 주목된다”고 덧붙였다.