싱가포르 스타트업, LLM보다 100배 빠른 AI 모델 공개…단 1,000개 샘플로 돌파구 열다

| 김민준 기자

싱가포르에 본사를 둔 AI 스타트업 사피엔트 인텔리전스(Sapient Intelligence)가 기존 대형 언어 모델(LLM)보다 100배 빠른 추론 능력을 갖춘 새로운 AI 아키텍처를 선보였다. 이 모델은 단 1,000개 훈련 샘플만으로 LLM의 한계를 뛰어넘는 성능을 보이며, 기업 환경에서의 실질적인 AI 적용 가능성을 크게 확장시키고 있다.

새 아키텍처 ‘계층적 추론 모델(HRM, Hierarchical Reasoning Model)’은 인간의 두뇌가 느리고 계획적인 사고와 빠르고 직관적인 계산을 분리해 처리하는 방식에서 착안해 설계됐다. 연구진은 HRM이 적은 데이터와 메모리로도 복잡한 문제를 효율적으로 해결할 수 있는 구조라며, 전통적인 LLM이 필요로 하는 막대한 계산 자원과 데이터를 최소화할 수 있다고 설명했다.

기존 LLM은 ‘연쇄 사고(chain-of-thought, CoT)’ 기법을 통해 문제를 여러 단계로 분해해 텍스트로 답을 도출한다. 이는 일정 수준의 추론능력 향상에는 효과가 있었지만, 지나치게 언어적 표현에 의존해 연산 속도가 느리고 데이터 요구량이 크다는 구조적 한계가 있다. 사피엔트의 연구팀은 이를 두고 “CoT는 일시적인 우회책일 뿐, 지속가능한 해결책은 아니다”라고 지적했다.

이에 따라 HRM은 문제를 텍스트 단위가 아니라 잠재적 표현(latent space)에서 비언어적으로 사고하는 ‘내면적 추론(latent reasoning)’ 방식에 초점을 맞췄다. 이 방식을 통해 추론 과정이 내재적으로 일원화되며, 불필요한 토큰 생성을 줄이고 추론 효율을 극대화하는 것이 가능해진다.

HRM은 두 개의 상호작용 모듈로 구성된다. 고차원 계획을 세우는 H모듈과, 빠르게 연산을 수행하는 L모듈이 상호보완적으로 작동한다. 이러한 구조 덕분에 모델은 학습 도중 추론 경로가 지체되거나 왜곡되는 문제(조기 수렴 및 기울기 소멸 현상) 없이 여러 단계에 걸친 안정된 추론을 수행할 수 있다.

이는 실제 성능에서 극명하게 드러났다. HRM은 고난도 스도쿠와 미로 문제, 추상적 추론과 일반화 능력을 평가하는 ARC-AGI 테스트 등 다양한 벤치마크에서 기존 명령어 기반 모델을 완전히 앞섰다. 특히, 오픈AI의 ‘o3-mini-high’ 모델이 ARC-AGI에서 성능 점수 34.5%에 머문 반면, 파라미터 수가 훨씬 적은 HRM은 40.3%의 정확도를 기록했다. 더 놀라운 점은 HRM이 이 성능을 사전학습 없이 단 1,000개의 데이터셋만으로 달성했다는 것이다.

사피엔트 창업자이자 CEO인 관 왕(Guan Wang)은 HRM의 주요 장점으로 “속도, 정확도, 비용 효율성”을 꼽는다. 그는 “HRM은 추론 과정에서 점진적으로 성능이 향상되며, 마치 초보자가 훈련을 통해 전문가로 성장해 가는 것과 같다”고 설명했다. 특히 기업 입장에서 중요한 점은 HRM이 추론 작업을 병렬로 수행해 기존 LLM 대비 약 100배 빠른 속도로 문제를 해결할 수 있다는 것이다. 이는 실시간 의사결정과 지연에 민감한 상황에서 커다란 비용 절감 효과로 직결된다.

실제로 HRM을 활용해 숙련된 수준의 스도쿠를 해결하는 데 소요된 훈련 시간은 단 두 시간의 GPU 연산, 복잡한 ARC-AGI 벤치마크조차 50~200 GPU 시간에 불과했다. 이는 일반적인 파운데이션 모델 학습에 필요한 수천~수만 시간 대비 압도적으로 효율적인 수치다.

사피엔트는 HRM을 활용해 AI의 용도를 특정 문제 해결기에서 범용 추론 엔진으로 확장하려는 계획도 밝혔다. 왕 CEO는 HRM 기반 모델이 헬스케어, 기후 예측, 로보틱스 분야에 적용되고 있으며, 향후에는 자기 수정(self-correcting) 능력을 갖춘 시스템으로 진화할 것이라 밝혔다.

AI 모델 성능이 대규모 파라미터 수와 방대한 데이터 기반에서 한계에 다다른 지금, HRM은 “더 크기보다 더 구조적인 지능”이 미래 AI의 돌파구임을 보여준다. 인간 두뇌에서 영감을 얻은 이 새로운 접근법이 기업의 AI 전략을 어떻게 바꿔놓을지 주목된다.