QumulusAI, 3년 구독 계약으로 AI 추론 인프라 선점…GPU ‘서비스형’ 모델로 승부

김서린 기자

2026.06.13 (토) 07:47

QumulusAI가 하이퍼볼릭 등과 3년 만기 고객 구독 계약을 체결해 1억2,400만달러 이상의 매출을 확보했다고 밝혔다.

단순 GPU 판매가 아니라 추론 최적화 기반 인프라로 비용을 약 20% 낮춘다는 전략이 시장의 주목을 받고 있다.

QumulusAI, 3년 구독 계약으로 AI 추론 인프라 선점…GPU ‘서비스형’ 모델로 승부 / TokenPost.ai

QumulusAI가 3년 계약 기준 1억2,400만달러(약 1,883억5,600만원) 이상의 고객 구독 계약을 확보했다. 단순 GPU 판매가 아니라 ‘GPU 서비스형’ 구독 모델로 대형 인공지능 추론 수요를 선점했다는 점에서 시장의 시선이 쏠린다.

3년 장기 계약으로 1억2,400만달러 확보

QumulusAI는 12일(현지시간) 하이퍼볼릭(Hyperbolic)과 또 다른 주요 인공지능 추론 플랫폼을 상대로 3년 만기의 고객 구독 계약을 체결했다고 밝혔다. 계약 규모는 1억2,400만달러를 넘는다.

이번 계약에는 엔비디아(Nvidia)의 블랙웰 GPU 1,280개 배치가 포함된다. 인프라는 레노버와 슈퍼마이크로의 베어메탈 서버 160대, 시스코 시스템즈의 넥서스 네트워크 장비를 묶어 고처리량·저지연 클러스터로 구성된다.

특히 전체 계약금 가운데 약 2,190만달러(약 332억3,610만원)는 선지급 형태로 들어온다. 이는 QumulusAI 입장에선 운전자본 확보에 도움이 되고, 고객사 입장에선 일회성 장비 구매보다 예측 가능한 운영비 구조를 만들 수 있다는 의미다.

핵심은 GPU 수보다 ‘추론 비용 절감’

이번 발표의 핵심은 GPU 숫자보다 ‘추론 최적화’에 있다. QumulusAI는 범용 인공지능 클라우드 대신 ‘추론 중심’ 인프라 구조를 내세우고 있다. 대규모 오픈소스 모델 추론, 자동 코딩 시스템, 비동기형 에이전트 서비스처럼 실제 운영 환경에서 중요한 처리량과 지연시간, 토큰당 비용에 맞춰 CPU, 메모리, 저장장치를 조정하는 방식이다.

기존 인공지능 인프라는 최대 성능을 전제로 CPU와 메모리, 로컬 스토리지를 넉넉하게 잡는 경우가 많았다. 문제는 추론 업무에선 이런 구성이 자원 낭비로 이어질 수 있다는 점이다. QumulusAI는 GPU 위쪽 시스템을 용도에 맞게 재설계해 표준 구성 대비 추론 비용을 약 20% 낮출 수 있다고 주장했다.

이는 기업들이 더 이상 ‘GPU를 얼마나 확보했는가’보다 ‘GPU를 계속 돌릴 비용을 감당할 수 있는가’를 따지는 국면으로 넘어가고 있음을 보여준다. 초기 생성형 인공지능 시장이 GPU 부족에 반응했다면, 이제는 GPU 효율이 경쟁력을 가르는 단계라는 해석이다.

훈련용과 다른 ‘추론 인프라’ 시장 부상

시장에선 추론이 학습과 별개의 인프라 영역으로 빠르게 자리 잡고 있다. 학습 환경이 짧고 강한 계산 부하와 대규모 데이터 이동에 맞춰진다면, 추론 환경은 장기간 안정적인 요청 처리와 예측 가능한 비용 구조가 더 중요하다.

QumulusAI는 이런 흐름에 맞춰 장기 구독 계약, GPU 서비스형 구조, 분산 배치 모델을 결합했다. 특정 초대형 리전에 자원을 몰아넣기보다 사용자 가까이에 연산 자원을 배치해 지연시간과 네트워크 부담을 줄이는 전략이다. 그 결과 인공지능 인프라의 성패를 최고 성능 수치가 아니라 ‘질의당 비용’과 ‘가동률’로 평가하는 흐름이 강화되고 있다.

고객사 역시 단순히 GPU 재고를 확보하는 차원이 아니라, 자사 업무에 맞춘 ‘최적화된 용량’을 사들이는 방향으로 움직이고 있다. 하이퍼볼릭 같은 기업이 장기 계약을 택한 것도 같은 맥락이다.