맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크 복사 완료 링크가 복사되었습니다.

QumulusAI, 3년 구독 계약으로 AI 추론 인프라 선점…GPU ‘서비스형’ 모델로 승부

프로필
김서린 기자
댓글 0
좋아요 비화설화 0

QumulusAI가 하이퍼볼릭 등과 3년 만기 고객 구독 계약을 체결해 1억2,400만달러 이상의 매출을 확보했다고 밝혔다.

단순 GPU 판매가 아니라 추론 최적화 기반 인프라로 비용을 약 20% 낮춘다는 전략이 시장의 주목을 받고 있다.

 QumulusAI, 3년 구독 계약으로 AI 추론 인프라 선점…GPU ‘서비스형’ 모델로 승부 / TokenPost.ai

QumulusAI, 3년 구독 계약으로 AI 추론 인프라 선점…GPU ‘서비스형’ 모델로 승부 / TokenPost.ai

QumulusAI가 3년 계약 기준 1억2,400만달러(약 1,883억5,600만원) 이상의 고객 구독 계약을 확보했다. 단순 GPU 판매가 아니라 ‘GPU 서비스형’ 구독 모델로 대형 인공지능 추론 수요를 선점했다는 점에서 시장의 시선이 쏠린다.

3년 장기 계약으로 1억2,400만달러 확보

QumulusAI는 12일(현지시간) 하이퍼볼릭(Hyperbolic)과 또 다른 주요 인공지능 추론 플랫폼을 상대로 3년 만기의 고객 구독 계약을 체결했다고 밝혔다. 계약 규모는 1억2,400만달러를 넘는다.

이번 계약에는 엔비디아(Nvidia)의 블랙웰 GPU 1,280개 배치가 포함된다. 인프라는 레노버와 슈퍼마이크로의 베어메탈 서버 160대, 시스코 시스템즈의 넥서스 네트워크 장비를 묶어 고처리량·저지연 클러스터로 구성된다.

특히 전체 계약금 가운데 약 2,190만달러(약 332억3,610만원)는 선지급 형태로 들어온다. 이는 QumulusAI 입장에선 운전자본 확보에 도움이 되고, 고객사 입장에선 일회성 장비 구매보다 예측 가능한 운영비 구조를 만들 수 있다는 의미다.

핵심은 GPU 수보다 ‘추론 비용 절감’

이번 발표의 핵심은 GPU 숫자보다 ‘추론 최적화’에 있다. QumulusAI는 범용 인공지능 클라우드 대신 ‘추론 중심’ 인프라 구조를 내세우고 있다. 대규모 오픈소스 모델 추론, 자동 코딩 시스템, 비동기형 에이전트 서비스처럼 실제 운영 환경에서 중요한 처리량과 지연시간, 토큰당 비용에 맞춰 CPU, 메모리, 저장장치를 조정하는 방식이다.

기존 인공지능 인프라는 최대 성능을 전제로 CPU와 메모리, 로컬 스토리지를 넉넉하게 잡는 경우가 많았다. 문제는 추론 업무에선 이런 구성이 자원 낭비로 이어질 수 있다는 점이다. QumulusAI는 GPU 위쪽 시스템을 용도에 맞게 재설계해 표준 구성 대비 추론 비용을 약 20% 낮출 수 있다고 주장했다.

이는 기업들이 더 이상 ‘GPU를 얼마나 확보했는가’보다 ‘GPU를 계속 돌릴 비용을 감당할 수 있는가’를 따지는 국면으로 넘어가고 있음을 보여준다. 초기 생성형 인공지능 시장이 GPU 부족에 반응했다면, 이제는 GPU 효율이 경쟁력을 가르는 단계라는 해석이다.

훈련용과 다른 ‘추론 인프라’ 시장 부상

시장에선 추론이 학습과 별개의 인프라 영역으로 빠르게 자리 잡고 있다. 학습 환경이 짧고 강한 계산 부하와 대규모 데이터 이동에 맞춰진다면, 추론 환경은 장기간 안정적인 요청 처리와 예측 가능한 비용 구조가 더 중요하다.

QumulusAI는 이런 흐름에 맞춰 장기 구독 계약, GPU 서비스형 구조, 분산 배치 모델을 결합했다. 특정 초대형 리전에 자원을 몰아넣기보다 사용자 가까이에 연산 자원을 배치해 지연시간과 네트워크 부담을 줄이는 전략이다. 그 결과 인공지능 인프라의 성패를 최고 성능 수치가 아니라 ‘질의당 비용’과 ‘가동률’로 평가하는 흐름이 강화되고 있다.

고객사 역시 단순히 GPU 재고를 확보하는 차원이 아니라, 자사 업무에 맞춘 ‘최적화된 용량’을 사들이는 방향으로 움직이고 있다. 하이퍼볼릭 같은 기업이 장기 계약을 택한 것도 같은 맥락이다.

AI 인프라 경쟁, 이제는 경제성 중심으로

이번 계약은 인공지능 인프라 시장이 2단계에 접어들고 있음을 보여준다. 과거에는 가속기 보유량이 경쟁력이었지만, 이제는 얼마나 효율적으로 추론 서비스를 운영하느냐가 더 중요해졌다.

QumulusAI의 사례는 블랙웰 GPU 같은 최신 칩을 확보하는 것만으로는 충분하지 않다는 점을 시사한다. CPU, 메모리, 저장장치, 네트워크까지 실제 추론 패턴에 맞게 조정해야 비용 경쟁력이 생긴다.

기업 입장에서도 인공지능 인프라는 더 이상 ‘한 번 크게 투자하고 끝나는’ 설비가 아니다. 업무별로 나뉜 모듈형 구조로 바뀌고 있으며, 앞으로는 추론 경제성을 설계 단계부터 반영하는 사업자와 운영팀이 시장 주도권을 가져갈 가능성이 크다.

TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.
본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.
광고문의 기사제보 보도자료

많이 본 기사

alpha icon

지금 꼭 알아야 할 리포트

관련된 다른 기사

댓글

댓글

0

추천

0

스크랩

스크랩

데일리 스탬프

0

말풍선 꼬리

매일 스탬프를 찍을 수 있어요!

데일리 스탬프를 찍은 회원이 없습니다.
첫 스탬프를 찍어 보세요!

댓글 0

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요
1