중국의 생성형 AI 스타트업 Z.ai가 보다 경제적인 추론 모델 GLM-4.5를 공개하며 다시 한번 산업계에 센세이션을 일으켰다. Z.ai는 이 모델이 DeepSeek의 R1보다 운영비용 측면에서 더욱 뛰어나다고 강조했다. GLM-4.5는 8개의 H20 GPU에서 실행 가능하도록 설계됐으며, 이는 과거 엔비디아(NVDA)의 AI 주력 칩셋이었던 H100 대비 스펙을 낮춘 저가형 모델이다. 미국 정부가 최근 이 H20 칩의 중국 수출을 허용한 점도 Z.ai 모델의 경쟁력을 뒷받침하고 있다.
GLM-4.5의 등장은 DeepSeek이 R1 모델을 오픈소스로 출시한 지 약 6개월 만이다. 당시 DeepSeek은 자사 알고리즘이 오픈AI의 o1 모델 대비 50배 더 적은 하드웨어로 유사한 추론 능력을 구현한다고 주장한 바 있다. 이 발표 이후 하드웨어 효율성에 대한 시장의 우려가 커졌고, 엔비디아의 시가총액은 무려 약 836조 원($5800억) 증발하며 사상 최대 낙폭을 기록하기도 했다. 이번 Z.ai의 신모델은 기술적 진보를 숨기지 않았지만, 시장은 상대적으로 차분하게 반응하고 있다.
Z.ai는 GLM-4.5 사용 비용도 공격적으로 낮췄다. 입력 토큰 100만 개당 가격은 약 11센트로, R1 대비 3센트 저렴하다. 출력 토큰 가격은 28센트 수준으로, DeepSeek보다 10분의 1가량 저렴하다. 특히 GLM-4.5는 파라미터 수가 3550억 개로, R1보다 약 3억 1600만 개 적으며, 이 중 실시간으로 활성화되는 파라미터는 320억 개에 불과하다. 이 같은 구조가 하드웨어 절감 효과를 가능케 한 셈이다.
Z.ai는 GLM-4.5를 훈련시키기 위해 총 15조 개의 토큰을 활용해 초기 모델을 구성하고, 이후 추가적인 7조 개의 고도화 데이터를 통해 추론 능력을 보완했다고 설명했다. 다양한 벤치마크 평가에서 GLM-4.5는 Anthropic의 Claude 4 Opus를 능가하는 성능을 보여줬으며, xAI의 Grok 4와 오픈AI의 o3에 이어 성능 기준 업계 3위를 차지했다.
소형화 모델로 GLM-4.5-Air도 함께 개발됐다. 이 모델은 파라미터 수가 1060억 개로 본 모델의 3분의 1 수준이며, 실시간 활성 파라미터는 단 120억 개에 불과해 극단적인 효율성을 추구하는 서비스에 적합하다.
한편 미국 상무부는 지난 1월 Z.ai를 수출 규제 대상(Entity List)에 포함시켰다. 그럼에도 불구하고, Z.ai는 알리바바, 텐센트 등으로부터 약 2조 1600억 원($15억)의 투자금을 유치했고, 이르면 올해 하반기 기업공개(IPO)를 추진할 계획이다. 글로벌 AI 경쟁에서 하드웨어 효율성과 가격 경쟁력을 무기로 삼은 Z.ai의 등장은 앞으로 AI 생태계의 판도를 뒤흔들 가능성을 예고하고 있다.