AI21랩스, 초소형 모델 '잠바 리즈닝 3B'로 AI 탈중앙화 선언

| 김민준 기자

AI21랩스(AI21 Labs)가 오늘 새롭게 공개한 '잠바 리즈닝 3B(Jamba Reasoning 3B)'는 초소형 언어모델(SLM)로서 생성형 AI의 경제성을 근본적으로 바꾸겠다는 야심을 담고 있다. 이 모델은 서버가 아닌 로컬 기기에서 직접 실행할 수 있도록 최적화돼, 연산 자원을 크게 아끼는 동시에 지연시간도 줄일 수 있는 점이 특징이다. AI21랩스는 이를 통해 AI 탄력성과 프라이버시, 그리고 운영비용 측면에서 대기업뿐 아니라 중소기업에게도 실질적인 혜택을 제공할 수 있다고 강조했다.

잠바 리즈닝 3B는 AI21랩스가 자체 개발한 하이브리드 SSM-트랜스포머 아키텍처를 기반으로 한다. SSM(State Space Model)은 현재 상태를 예측한 뒤, 다음 상태를 계산하는 방식의 순차 모델링 알고리즘이다. 이를 트랜스포머 프레임워크와 결합함으로써, 보다 긴 컨텍스트 윈도우(최대 100만 토큰)에서도 효율적인 추론이 가능하다. 실제로 이번 모델은 최대 25만 6,000개의 토큰을 한 번에 처리할 수 있으며, 기존 경량 모델보다 연산 효율이 2~5배 가량 높다는 평가를 받았다.

AI21랩스는 블로그를 통해 잠바 리즈닝 3B에 쓰인 '로프 스케일링(RoPE Scaling)' 기술이 주목할 가치가 있다고 밝혔다. 해당 기술은 주의력(attention) 메커니즘의 범위를 확장시키는 방식으로, 더 적은 연산량으로도 복잡한 문맥을 이해할 수 있게 해준다. 벤치마크 테스트에서는 알리바바의 Qwen 3.4B, 구글(GOOGL)의 Gemma 3.4B, 메타(META)의 LLaMA 3.2 3B, IBM의 Granite 4.0 Micro, 마이크로소프트(MSFT)의 Phi-4 Mini 등 동급 모델을 능가했다.

AI21랩스 공동 CEO 오리 고셴(Ori Goshen)은 벤처비트와의 인터뷰에서 “현재 업계가 직면한 가장 큰 과제는 경제성”이라며 “데이터센터의 고비용 인프라가 수익성과 맞지 않는 구조”라고 지적했다. 그는 이어 “작고 효율적인 모델이 일반 기기로 내려오면, 데이터센터는 복잡한 AI 문제 해결에 집중할 수 있게 되고, 업계 전체가 더 지속가능한 방향으로 나아갈 수 있다”고 설명했다.

잠바 리즈닝 3B는 특히 검색 기반 생성(RAG) 기법과의 결합을 통해 맞춤형 활용이 가능하며, 에이전트 기반 작업(agentic workloads)에도 강점을 보인다. 기업은 간단한 업무는 로컬 장치에서 처리하고 복잡한 작업에는 클라우드 기반 대형 모델을 호출함으로써, 성능과 비용의 균형을 맞출 수 있다. 이를 통해 오프라인 상황에서도 탄력적으로 작동하면서 사용자 데이터의 프라이버시를 더 잘 보호할 수 있다.

미국 분석업체 퓨처럼 그룹의 애널리스트 브래드 심민(Brad Shimmin)은 “SSM 방식 자체는 오래된 개념이지만, 최근에서야 이를 실질적으로 구현할 수 있는 기술이 등장했다”며 “지금은 이 구조가 고속 확장이 가능하고 매우 빠르다는 점에서 실용성이 높다”고 말했다.

AI21랩스는 향후에도 이러한 소형 언어모델이 대기업뿐 아니라 고객센터나 SMB 등 다양한 현업 환경에서 폭넓게 활용될 것으로 기대하고 있다. 실제 예로 소규모 컨택센터에서는 고객 응대를 로컬 디바이스에서 수행하고, 필요할 때만 고성능 모델이나 상담사에게 연결하는 구조를 도입할 수 있다.

AI 연산의 탈중앙화 시대를 선언한 AI21랩스는 “1980년대 메인프레임에서 개인용 컴퓨터로 전환됐을 때처럼, 지금은 클라우드 중심 AI에서 디바이스 중심으로 역할이 재편되고 있다”며, 이러한 변화가 AI 인프라 전반의 효율성을 끌어올릴 수 있다고 강조했다.