기업들이 인공지능 도입에 있어 비용 효율성을 강조하고 있는 가운데, 오픈소스 AI 모델이 예상을 깨고 상당한 컴퓨팅 자원을 소모한다는 연구 결과가 나왔다. AI 전문기업 누스 리서치(Nous Research)가 최근 발표한 보고서에 따르면, 오픈소스 모델은 동일한 업무를 수행함에도 불구하고 폐쇄형 모델보다 최대 10배 많은 연산 토큰을 사용하는 것으로 나타났다. 이로 인해 오픈소스 모델이 저렴하다는 일반적인 인식에 의문이 제기되고 있다.
이번 조사는 총 19개의 AI 모델을 대상으로 세 가지 작업 유형―일반 지식 질문, 수학 문제, 논리 퍼즐―에 대해 토큰 효율성을 측정했다. 토큰은 AI가 정보를 처리할 때 사용하는 기본 단위로, 사용량에 따라 운영 비용이 결정된다. 연구진은 일반적으로 오픈소스 모델의 단일 토큰 비용이 낮더라도, 문제 해결을 위해 필요한 토큰 수가 많으면 총 비용은 오히려 올라갈 수 있다고 지적했다.
특히 복잡한 문제를 단계적으로 접근하는 ‘연쇄적 사고(Chain-of-Thought)’ 구조를 사용하는 대형 추론 모델(LRM)의 경우, 단순한 퀴즈형 질문에도 수백 개의 토큰을 소모하는 비효율적인 결과를 보였다. 가령 “호주의 수도는 어디인가?”라는 질문에서조차 오픈 모델들이 불필요한 내부 추론을 반복하며 연산량이 크게 증가했다는 것이다.
이와 대조적으로, 오픈AI(OpenAI)의 o4-mini 및 최신 공개 모델인 gpt-oss는 수학 문제에서 매우 높은 토큰 효율성을 나타냈다. 특히 단순 지식 질문에 대해 폐쇄형 모델은 평균적으로 3분의 1 수준의 토큰만을 사용한 것으로 분석됐다. 오픈소스 모델 중에서는 엔비디아(NVDA)의 llama-3.3-nemotron-super-49b-v1이 상대적으로 효율적이었지만, 대다수 오픈소스 모델은 여전히 높은 자원 소모를 피하지 못했다.
보고서는 기업들이 AI 모델을 선택할 때 정확도와 API 가격만을 기준으로 삼을 것이 아니라, 실제 연산 부하를 고려해야 한다고 강조했다. 폐쇄형 모델의 높은 API 요금이 실제로는 토큰 절감을 통해 충분히 상쇄된다는 것이다. 누스 리서치는 “폐쇄형 모델들은 추론에 필요한 토큰 수를 줄이기 위해 지속적으로 최적화를 거쳐왔으나, 오픈소스 모델들은 오히려 최근 버전에서 토큰 사용량이 늘어난 경향을 보였다”며 리소스 효율성이 우선된 개발 전략의 필요성을 강조했다.
또한 연구진은 모델별 추론 방식이 다르기 때문에 비교의 어려움도 크다고 분석했다. 폐쇄형 모델들은 종종 내부 추론 경로를 요약하거나 압축해 제공하는 반면, 오픈모델은 대부분 전체 연산 흐름을 풀어서 출력한다. 이에 따라 연구팀은 완성 토큰 수를 하나의 공통적 비교 지표로 설정해 분석을 진행했으며, 실제 수학 경시대회 문제를 변형해 기억된 답변이 아닌 순수 추론 능력을 평가하는 방식으로 실험 신뢰성을 높였다.
AI 업계의 향후 경쟁력은 단순히 ‘더 똑똑한 AI’가 아니라 ‘더 효율적인 AI’에 달렸다는 것이 이번 보고서의 핵심 메시지다. 오픈AI가 공개한 gpt-oss 모델처럼 고효율 추론 체계를 제공하는 것이 미래 경쟁력의 척도가 될 수 있다는 분석도 제시됐다. 보고서의 전체 데이터와 코드베이스는 깃허브(GitHub)를 통해 공개됐으며, 이는 다른 연구자들이 후속 연구에 활용할 수 있도록 배려한 조치다.
결국 AI 도입을 고려하는 기업이라면, 눈에 보이는 API 가격이나 기술 레이블에 앞서 모델의 실질적인 토큰 효율성과 처리가격을 종합적으로 검토해야 한다. 연산 자원이 급속히 연소되는 시대에는 가장 '싸 보이는' 모델이 결국 가장 비싼 선택이 될 수 있기 때문이다.