삼성 초소형 AI, 구글 제미니 이긴다… ‘700만 매개변수’의 반란

| 김민준 기자

삼성전자 연구진이 개발한 초소형 인공지능 모델이 거대 언어 모델의 논리력에 도전장을 내밀며 AI 업계의 기존 통념을 뒤흔들고 있다. 매개변수가 단 700만 개에 불과한 이 모델은, 복잡한 추론 퍼즐에서 구글(GOOGL)의 최첨단 AI 모델인 제미니 2.5 프로(Gemini 2.5 Pro)를 능가하는 성능을 입증했다.

삼성전자 몬트리올 AI 연구소 소속 연구원들이 공개한 '티니 리커시브 모델(Tiny Recursive Model·TRM)'은 이름 그대로 작은 규모임에도 불구하고 강력한 추론 능력을 발휘한다. TRM은 사람처럼 문제를 되풀이하며 점점 더 나은 해답을 내놓는 순환 추론(recursive reasoning) 구조를 기반으로 한다. 이를 통해 다른 AI 모델들이 놓치는 미세한 논리 구조를 반복해서 검토하고 정제할 수 있도록 설계됐다.

이번 연구를 이끈 알렉시아 졸리퀘르-마르티노(Alexia Jolicoeur-Martineau) 연구원은 arXiv를 통해 공개한 논문에서, 거대 언어 모델이 아님에도 불구하고 TRM이 일부 고난이도 문제에서는 오히려 더 정확한 성과를 내고 있다고 밝혔다. 예컨대 AI 모델이 초고난이도 스도쿠를 푸는 'Sudoku-Extreme' 벤치마크에서는 TRM이 87%의 정확도를 기록했으며, 복잡한 미로를 빠르게 해결하는 'Maze-Hard' 테스트에선 85%의 점수를 받았다. 보다 추상적 사고 능력을 테스트하는 ARC-AGI-1과 ARC-AGI-2에서는 각각 45%와 8%의 정확도를 나타냈다.

이 성과는 TRM이 사용한 매개변수가 대형 모델 대비 0.01% 수준임을 감안하면 더 큰 의미를 지닌다. 예를 들어 오픈AI(OpenAI)의 o3-mini-high는 ARC-AGI-2 테스트에서 3%, 앤트로픽(Anthropic)의 클로드 3.7(Claude 3.7)은 0.7%에 그쳤다. 반면 TRM은 동일한 테스트에서 8%의 성과를 기록하며 존재감을 과시했다.

TRM의 동작 방식은 뇌의 사고 과정과도 유사하다. 이 모델은 현재 해답과 중간 계산 기록이라는 두 개의 단기 기억을 유지하며, 문제를 검토하고 결과를 개선하며 여러 차례 반복 수행한다. 그 결과, 인간처럼 ‘한 번 더 생각해보기’를 통해 더 나은 해답에 도달할 수 있는 구조가 가능해졌다. 또한 적응형 정지(adaptive halting) 기법을 활용해 자동으로 최적 답변 지점에서 연산을 멈추게 한다는 점도 효율성을 크게 높인다.

주목해야 할 또 다른 포인트는 TRM의 실행 비용이다. 졸리퀘르-마르티노 연구원은 블로그를 통해 이 모델이 단 4개의 H100 GPU에서 이틀 만에 훈련이 끝났다고 밝히며, 총 비용이 500달러(약 72만 원) 이하로 추산된다고 덧붙였다. 이는 수천억 개의 매개변수를 필요로 하는 LLM이 수백 대의 고성능 GPU를 필요로 하는 상황과 극명한 대조를 이룬다.

TRM의 등장은 AI 연구의 접근성을 획기적으로 넓힐 수 있다는 점에서 큰 파급력을 보인다. 지금까지는 수조 단위의 매개변수를 조작할 수 있는 자원이 있는 빅테크 기업과 일부 대학에 제한됐지만, TRM과 같은 모델은 중소 연구기관, 스타트업, 개인 개발자도 활용할 수 있는 기술적 기반을 제공한다. 소형 모델이라고 해서 무시할 수 없다는 확실한 반례를 제시한 것이다.

다만 이번 연구도 한계를 분명히 인정하고 있다. TRM은 구조가 명확히 정의된 퍼즐에 특화된 모델로, 자유로운 언어 생성이나 멀티모달 처리는 지원하지 않는다. 따라서 기존의 대형 언어 모델을 완전히 대체할 수 있는 솔루션은 아니다. 하지만 연구진은 향후 TRM 설계를 다른 AI 영역에도 확대 적용할 수 있는 가능성을 탐구할 계획이다.

이번 TRM의 등장은 "작을수록 강하다"는 새로운 AI 패러다임의 가능성을 보여준 전환점으로 평가된다. 효율성과 정밀함, 비용 절감과 성능 최적화라는 AI 연구의 핵심 가치를 동시에 달성한 이 초소형 모델은, AI 산업 전반에 신선한 자극을 던지며 새로운 경쟁 구도를 예고하고 있다.