AI 워크로드를 위한 차세대 인프라 혁신이 본격화되는 가운데, 미국의 클라우드 인프라 스타트업 아틀라스 클라우드(Atlas Cloud)가 한층 최적화된 AI 추론 서비스 ‘아틀라스 인퍼런스(Atlas Inference)’를 공개했다. 이번 신제품은 GPU 활용 효율을 대폭 끌어올리는 동시에, 대규모 언어모델(LLM) 서비스 운영의 경제성을 회복할 수 있는 기술적 진보를 담고 있어 업계의 이목을 끌고 있다.
아틀라스 클라우드는 AI 교육과 추론을 위한 GPU 클러스터를 서버리스(serverless) 환경에서 제공하는 클라우드 인프라 플랫폼 기업이다. 고객은 최대 5,000개 GPU에 이르는 클러스터 자원을 온디맨드 방식으로 사용할 수 있으며, 사양에 맞춘 GPU 선택도 가능하다. 이번에 새롭게 선보인 인퍼런스 서비스는 오픈소스 추론 엔진 ‘SGLang’을 기반으로 설계돼 동일한 하드웨어에서 최대 2.1배 높은 처리량을 제공하는 것이 핵심이다.
특히 고도화된 텐서 병렬 시스템을 구동할 경우, 아틀라스 인퍼런스는 기존 대비 절반의 GPU만 사용하면서도 동일하거나 더 나은 성능을 구현할 수 있다고 회사는 강조했다. 1만 개 이상의 동시 세션을 대상으로 진행된 내부 테스트에서는 첫 토큰 생성 지연을 5초 이내로, 이후 토큰 간 지연을 100밀리초 이내로 유지하면서 안정적인 성능을 입증했다.
아틀라스 측은 이 같은 성능 개선이 이뤄진 배경으로 네 가지 핵심 기술을 들었다. 연산 중심 작업과 메모리 접근 작업을 분리한 ‘프리필/디코드 분리(prefill/decode disaggregation)’, 전체 클러스터의 GPU 활용률을 최적화하는 ‘딥엑스퍼트 병렬화(DeepExpert Parallelism)’, 더 대용량 토큰 처리를 가능케 하는 듀얼 배치 오버랩(batch overlap) 기술, 그리고 메모리 누수 과부하로 인한 서비스 중단을 방지하는 ‘디스포저블 텐서 메모리 모델’이 대표적이다.
이와 더불어 신규 서비스는 GPU 노드 확장성 측면에서도 강점을 갖는다. 실시간 자동 스케일링 기능으로, 워크로드 변화에 따라 GPU 클러스터를 유기적으로 늘리거나 줄일 수 있어 인프라 비용 관리를 한층 용이하게 한다.
제리 탕(Jerry Tang) 아틀라스 클라우드 CEO는 AI 운영 수익성 회복에 대한 기업들의 갈망에 주목했다며, “많은 기업이 LLM을 도입하면서도 수익을 내지 못하거나 손실을 감내하고 있다. 하지만 우리는 GPU 자원 단위당 초당 입력 토큰 5만 4,500개, 출력 토큰 2만 2,500개를 처리할 수 있는 성능으로 이 구조 자체를 바꾸고 있다”고 강조했다. 그는 이어, “초대형 클라우드사와 비교해 더 적은 자원으로 더 높은 성능을 구현하며, 산업 전반에 파급력이 클 것으로 본다”고 덧붙였다.
이번 공식 출시된 아틀라스 인퍼런스는 클라우드 환경뿐 아니라 고객사 자체 서버에서도 활용 가능하며, 특정 GPU 하드웨어나 AI 모델에 구애받지 않는 **호환성**을 갖춰 다양한 엔터프라이즈 수요에 대응할 수 있도록 설계됐다. AI 추론 비용과 성능, 인프라 유연성을 동시에 개선하려는 기업들에게 새로운 대안이 될 수 있을 전망이다.