“AI를 신뢰하게 만드는 방법은?”…노치 리서치, 블록체인 기반 평가체계 ‘리콜’ 공개

| 이도현 기자

AI 성능 검증에서 신뢰 공백이 주요 과제로 떠오른 가운데, 블록체인을 활용한 새로운 평가 체계가 주목받고 있다. 블록체인 기반 AI 평가 프로젝트 리콜(Recall)은 최근 보고서에서 ‘AI가 스스로를 증명할 수 있도록 돕는 인프라’ 구축을 목표로, ‘프루프 오브 인텔리전스(Proof-of-Intelligence)’라는 새로운 신뢰 메커니즘을 소개했다. AI 간 실시간 경쟁을 주요 도구로 삼는 이 시스템은, 인간의 주관적 평가 대신 데이터 기반의 행동 기록을 활용한 평판 시스템 구축을 중심에 둔다.

리콜은 2025년 개최된 ‘알파웨이브(AlphaWave)’ 트레이딩 챌린지를 통해 AI 에이전트들이 실제로 성능을 입증하고 평가받는 실험을 진행했다. 1,000개 이상의 AI 트레이딩 에이전트가 일주일 동안 181개 토큰을 대상으로 총 9,977회의 거래를 성사시키며, 약 30억 원의 수익을 창출했다. 이 실험을 통해 트레이딩 행동, 수익률, 반복성, 리스크 관리 등의 데이터가 블록체인에 기록됐으며, 이를 기반으로 AI의 종합 평판 점수인 ‘리콜랭크(RecallRank)’가 산출됐다. 노치 리서치(Notch Research)는 이 점수 체계가 단순한 리더보드 이상의 가치를 지니며 AI 생태계에서의 신뢰 통화 역할을 한다고 분석했다.

리콜의 핵심 구조는 경쟁(Competition), 랭킹 엔진(Ranking Engine), 경제적 큐레이션(Economic Curation)의 세 층으로 구성된다. 경쟁 층에서는 AI가 실제 환경에서 문제를 해결하며 데이터를 생성하고, 랭킹 엔진이 이 데이터를 바탕으로 ‘성과’와 ‘확실성’이라는 두 척도로 평판 점수를 계산한다. 경제적 큐레이션 층에서는 커뮤니티가 자신이 신뢰하는 AI에 토큰을 스테이킹하고 예측 결과에 따라 보상을 받거나 손실을 입는 구조다. 이 데이터는 다시 평판 점수에 적용되어 신뢰에 실질적인 리스크가 동반되도록 만든다.

특히 Proof-of-Intelligence 시스템은 미리 준비된 데모 영상이나 한 번의 테스트 결과에 의존하는 기존의 벤치마크 방식과 달리, 실시간, 반복 가능성, 검증 가능성이라는 세 가지 기준을 충족한 데이터를 요구한다. 모든 AI의 판단과 행동은 블록체인 위에 저장돼 누구나 열람하고 검증할 수 있으며, 조작이 불가능한 형태로 보존된다. 해당 시스템을 정리한 노치 리서치에 따르면 이 구조가 AI 신뢰의 공백(Trust Gap)을 메우는 결정적 열쇠로 작용한다.

리콜은 경쟁을 통해 데이터를 수집하고, 이를 기반으로 AI 성과를 순위를 매기며, 커뮤니티가 함께 그 결과의 타당성을 평가하는 온체인 메커니즘을 구축한다. 트레이딩처럼 수치화가 가능한 영역은 물론, 창의성이나 공감력 등 정성적인 스킬 영역에서도 사용자 커뮤니티가 평가 항목을 직접 제안하고 검증 대회를 개최한다. 이때 단순 점수보다 토큰 스테이킹 등 경제적 선택이 평가의 신뢰도를 높인다.

2025년 8월 진행된 '리콜 프리딕트(Recall Predict)' 실험에서는 GPT-5의 공개를 앞두고 25만 명 이상의 이용자들이 다양한 AI 모델의 성능을 예측했다. 이 실험은 AI 성능 예측을 분산 커뮤니티가 주도한 세계 첫 벤치마크로, 예측 정확도가 82%에 달했다. 이 예측 결과 역시 리콜랭크 계산의 입력값으로 사용됐다. 알파웨이브가 AI의 '행동'을 평가한 반면, 프리딕트는 '판단력'을 검증한 실험이었다.

리콜랭크는 단발적인 성과보다 반복성과 커뮤니티의 판단을 반영하는 평판 시스템으로서, 베이지안 업데이트 모델을 채택해 시간이 지남에 따라 신뢰 수치를 동적으로 갱신한다. 특히 오래된 데이터의 영향력을 점진적으로 줄여 실시간 데이터 중심의 평판 체계를 완성하고자 한다. 커뮤니티의 스테이킹은 단순 투표 그 이상으로, 집단 확률 분포로 처리돼 신뢰의 정확도를 보정한다.

결국 리콜은 단순한 AI 테스트 플랫폼이 아니라, AI 신뢰를 기반으로 자본이 흐르는 평판 기반 인프라로 진화하고 있다. AI 기술의 발전 속도에 맞춰, 평가 체계 역시 투명하고 검증 가능한 시스템으로 바뀌어야 한다는 메시지에 힘이 실리고 있다. 리콜은 이를 블록체인 기술을 통해 실현하며, AI와 사람 간 신뢰를 시스템적으로 재정의하는 첫 번째 시도를 하고 있다. AI 성장의 다음 단계는 더 큰 모델이 아닌, ‘더 신뢰할 수 있는 결과’라는 명제를 실증하고 있는 셈이다.