엔비디아(NVDA)가 소형 언어 모델 시장에 본격적으로 가세하며, 고성능과 유연성을 동시에 갖춘 새로운 모델 '네모트론-나노-9B-v2(Nemotron-Nano-9B-v2)'를 공개했다. 이번에 발표된 모델은 단일 A10 GPU 상에서 구동 가능하도록 최적화되었으며, 사용자가 AI의 추론 능력을 온·오프할 수 있는 기능까지 갖춰 실제 배포 환경에서의 효율성과 실용성을 크게 끌어올렸다는 평가다.
이번 출시 배경에는 최근 들어 구글(GOOGL), MIT 출신 스타트업 리퀴드AI 등 다양한 기업들이 소형 모델 경쟁에 뛰어들면서 연산 자원의 제약을 받는 환경에서도 높은 성능을 낼 수 있는 AI 수요가 급증한 데 있다. 엔비디아는 당초 120억 개였던 파라미터 수를 90억 개로 줄인 이번 모델이 A10 GPU에 최적화되었으며, 추론 속도에서는 동급 트랜스포머 모델 대비 최대 6배 빠르다고 설명했다.
네모트론-나노-9B-v2는 영어, 독일어, 프랑스어 등 여러 유럽 언어를 포함해 한국어, 중국어, 러시아어 등 아시아 언어 처리도 가능하다. 또한, 명령 수행과 코드 생성 모두에 적합하도록 학습되어 다양한 실전 환경에 투입할 수 있다. 특히 사용자 명령어로 추론 모드를 전환할 수 있다는 점은 고객센터, 자동화 에이전트처럼 응답 속도와 정확성 간 균형이 중요한 도메인에서 강력한 경쟁력을 제공한다.
엔비디아는 기존 트랜스포머 아키텍처에 선형 추론이 가능한 '맘바(Mamba)' 구조를 혼합 적용했다. 이 하이브리드 구조는 긴 입력 문맥을 처리할 때 메모리와 연산 자원을 효율적으로 사용할 수 있으며, 동일 크기의 순수 트랜스포머 모델 대비 처리량은 2~3배 향상된다. 이는 카네기 멜론대와 프린스턴대 연구자들이 개발한 최신 알고리즘에서 차용한 것으로, 고효율 AI 아키텍처 시장의 패러다임 전환을 보여주는 사례다.
성능 측면에서도 나노-9B-v2는 인상적인 결과를 보여주고 있다. 추론 기능을 활성화한 상태에서 수학 문제 정확도(MATH500)는 97.8%, 다양한 일반 지식을 묻는 GPQA에서는 64.0%의 정확도를 보였다. 문맥 길이 대응과 지시사항 수행 테스트(IFEval 등)에서도 경쟁 모델 대비 우위를 나타내며 Qwen 시리즈 등 기존 오픈모델보다 높은 정밀도를 확보했다.
이번 모델은 합성, 웹 기반 및 검증된 데이터셋을 혼합하여 사전학습되었으며, 고난도 문제에 강한 이유는 다른 대형 모델들이 생성한 추론 경로(synthetic reasoning traces)를 활용한 점도 주효했다. 이는 엔비디아가 단순히 경량화를 넘어 모델 응답의 신뢰성과 설명력까지 강화하려는 의도를 보여주는 대목이다.
라이선스 조건 또한 기업 친화적 구조로 설계되었다. 엔비디아는 이번 모델을 즉시 상업적으로 이용할 수 있도록 공개했으며, 별도의 사용료나 규모 제한 없는 오픈 모델 라이선스를 적용했다. 단, AI 거버넌스 준수, 안전 장치 유지, 배포 시 명시적 출처 표기 등의 조건은 필수다. 이를 통해 기업은 자유롭게 서비스를 구축하되, 기술의 책임 있는 활용을 보장받게 된다.
결국 엔비디아의 전략은 명확하다. 고성능을 요구하지 않으면서도 설명 가능한 응답과 빠른 처리 속도를 필요로 하는 기업 사용자층을 공략하겠다는 것이다. 반응 속도 조절, 추론 예산 제어 등 고급 기능을 통해 다양한 요구를 만족시킬 수 있도록 준비된 나노-9B-v2는 대형 모델 일변도였던 AI 시장 흐름에 있어 새로운 균형점을 제시하고 있다. 이 모델은 현재 허깅페이스(Hugging Face)와 엔비디아 공식 모델 카탈로그에서 무료로 내려받을 수 있다.