IBM, 하이브리드 AI 모델 ‘Granite 4’ 공개… 메모리 효율·성능 동시 강화

| 김민준 기자

IBM이 자사 하이브리드 언어 모델 시리즈 ‘Granite 4’를 오픈소스로 공개하며 자연어처리 경쟁에 본격 합류했다. 이 시리즈는 트랜스포머 기반 모델과 ‘맘바(Mamba)’ 아키텍처를 결합해 메모리 효율성과 성능을 동시에 강화한 것이 특징이다.

이번에 출시된 Granite 4 시리즈는 총 4개의 모델로 구성된다. 파라미터 수는 30억에서 최대 320억 개에 이르며, IBM에 따르면 동급 모델 대비 더 적은 메모리로 높은 계산 효율을 달성할 수 있다. 특히 가장 작고 빠른 `Granite-4.0-Micro`는 순수 트랜스포머 기반이며, 나머지 세 모델은 트랜스포머의 '어텐션 메커니즘'과 맘바의 '상태 공간 모델(state space model)'을 결합한 하이브리드 구조를 택했다.

맘바 아키텍처는 우주선 비행 궤도 계산 등 공학 연산에 활용되던 수학적 모델을 차용해, 어텐션 방식보다 적은 메모리로 정보를 처리하는 것이 가능하다. 일반적으로 트랜스포머는 입력 프롬프트의 길이가 늘어날수록 메모리 사용량이 기하급수적으로 증가하지만, 맘바 기반 모델은 이런 부담을 크게 줄일 수 있다는 점에서 기업 고객의 관심이 쏠린다.

Granite 4 모델군 가운데 가장 강력한 `Granite-4.0-H-Small`은 320억 개 파라미터를 탑재했고, 이 중 약 9억 개의 파라미터를 동적으로 활성화하는 ‘혼합 전문가(Mixture-of-Experts)’ 구조를 적용했다. IBM은 이 모델이 고객 응대 업무 등의 복잡한 언어 처리 작업에 적합하다고 설명했다.

또한 `Granite-4.0-H-Tiny`와 `Granite-4.0-H-Micro`는 각각 70억 개와 30억 개의 파라미터를 갖췄으며, 응답 지연(latency)에 민감한 실시간 처리 환경을 위해 속도 중심으로 설계됐다. IBM 내부 벤치마크에 따르면 `Granite-4.0-H-Tiny`는 이전 세대 제품인 ‘Granite 3.3 8B’ 대비 메모리 사용량이 6분의 1에 불과했다.

IBM은 블로그를 통해 "Granite 시리즈의 향상된 정확도는 모델 아키텍처 자체보다는 훈련 및 사후 훈련 기법의 발전, 그리고 데이터셋 품질 개선 덕분"이라고 밝혔다. Granite 4는 현재 IBM의 AI 서비스 플랫폼 Watsonx.ai를 통해 제공되며, 향후 Hugging Face 등 서드파티 플랫폼 외에도 아마존 세이지메이커 점프스타트(Amazon SageMaker JumpStart), 마이크로소프트 애저 AI에서도 사용할 수 있도록 할 예정이다.

IBM은 이번 Granite 4 공개를 시작으로 고도화된 추론 능력을 지닌 새로운 모델들도 지속적으로 선보일 계획이다. 이번 행보는 AI 산업이 '경량화'와 '정확성'을 동시에 추구하는 패러다임 전환 속에서 IBM이 다시금 입지를 강화하려는 전략으로 해석된다.