GPU 클러스터 간 동기화 기술을 개발하는 인프라 스타트업 클락워크 시스템즈(Clockwork Systems)가 새로운 자금 조달 라운드에서 2,057만 5,000달러(약 296억 원)를 확보하고, AI 워크로드 성능을 가속화하는 신기술 'FleetIQ'를 공개했다. 이 기술은 다양한 GPU 장비 간 시계 동기화를 통해 인공지능 모델 훈련과 추론 효율을 극대화하는 데 초점을 맞추고 있다.
이번 투자 라운드는 기존 투자사인 뉴 엔터프라이즈 어소시에이츠(New Enterprise Associates)가 주도했으며, 인텔(INTC) CEO 립부 탄(Lip-Bu Tan), 시스코(CSCO) 전 CEO 존 체임버스(John Chambers), 유명 벤처 투자자인 칼 레드베터(Carl Ledbetter) 등 업계 거물들도 참여해 눈길을 끌었다. 이와 함께 넷앱(NetApp) 출신의 수레시 바수데반(Suresh Vasudevan)이 새 CEO로 선임되며 조직 운영에 박차를 가할 계획이다.
클락워크의 핵심 기술은 초정밀 시계 동기화를 기반으로 한다. 일반적인 분산 네트워크에서 각 서버는 자체적 클록에 의존하는데, 이로 인해 미세한 시간 불일치가 병목 현상을 불러오고, 특히 고사양 GPU 클러스터에서는 성능 저하로 직결된다. 클락워크는 이런 문제를 소프트웨어 중심 동기화 기술로 해결하며, 네트워크 장비에 의존하지 않고도 지연 시간을 정밀하게 측정하고 최적화할 수 있도록 한다.
FleetIQ는 이러한 기술을 확장해 AI 클러스터에 전방위 도입할 수 있도록 설계됐다. 수백 또는 수천 개의 GPU가 동시에 작동해야 하는 환경에서는 단 1개의 GPU 지연도 전체 연산을 중단시키는 비효율이 발생할 수 있다. 클락워크는 이를 'AI 효율성 갭'이라 정의했고, 실제로 일부 대규모 GPU 클러스터는 이론적인 최대 성능의 절반 이하에서 작동 중인 것으로 전해졌다.
예를 들어 오픈AI(OpenAI)의 최신 모델 GPT-4o는 약 10만 개가 넘는 GPU로 구성된 클러스터에서 운영되며, 총 투자비는 약 60억 달러(약 8조 6,000억 원)에 달한다. 하지만 클러스터 활용률이 50%에 그친다면 무려 30억 달러(약 4조 3,000억 원)의 자원이 낭비되는 셈이다. FleetIQ는 이런 낭비를 방지하기 위해 마이크로초 단위의 병목 감지, 지속적 상태 추적 기능, 지연 GPU에 대한 동적 대응 기술을 적용해 전체 클러스터 성능을 견인한다.
이 솔루션은 GPU 제조사에 구애받지 않는다. 엔비디아(NVDA), AMD(AMD)는 물론, 아마존웹서비스(AWS)의 AI 전용 트레이니엄(Tranium) 칩에도 호환한다. 고속 네트워크 인프라인 인피니밴드(Infiniband), 이더넷(Ethernet), RoCE(RDMA over Ethernet) 모두 지원해 다양한 아키텍처 환경에 손쉽게 도입할 수 있다.
컨스텔레이션 리서치(Constellation Research)의 애널리스트 홀거 뮐러(Holger Mueller)는 “AI 서버 간 클록 동기화 문제는 여전히 미해결 과제”라며 “클락워크는 이를 각기 다른 하드웨어 환경에서도 극복할 수 있는 근본적 해법을 제시해 시장의 판도를 바꿀 잠재력을 지녔다”고 설명했다.
실제 적용 사례도 눈에 띈다. 덴마크 AI 혁신센터(DCAI)는 자국 최고 성능의 슈퍼컴퓨터 '게피온(Gefion)'에 클락워크의 시스템을 도입해 약물 탐색, 기후 예측 등 다양한 AI 연구 프로젝트를 고도화하고 있다. DCAI의 CEO 나디아 칼스텐(Nadia Carlsten)은 “클락워크와의 협업을 통해 대규모 워크로드 환경에서도 안정적인 AI 인프라 운영이 가능해졌고, GPU 자원 낭비도 획기적으로 줄였다”고 전했다.
이번 기술 공개와 함께 전 CEO였던 클락워크 공동 창업자 발라지 프라바카르(Balaji Prabhakar)는 후임자인 바수데반을 앞세워 경영 일선에서 물러난다. 프라바카르는 “내 역할은 기술 전략에 집중하는 것으로 옮기겠다. 바수데반은 시장 확장 역량에서 매우 뛰어나며, 클락워크의 다음 성장 단계에 최적의 인물”이라고 밝혔다.
새 CEO 바수데반은 과거 님블스토리지(Nimble Storage) 설립 초기부터 CEO를 맡아 IPO까지 이끈 바 있으며, 최근까지는 클라우드 보안 기업 시스디그(Sysdig)에서 대표로 근무했다. 그는 “이제 클록 동기화는 새로운 의미의 '무어의 법칙(Moore’s Law)'이 될 것이다. 컴퓨팅 성능뿐 아니라 통신 지연을 줄이는 것이 AI 인프라 경쟁의 핵심”이라고 말했다.
FleetIQ 출시와 인재 영입, 대규모 투자 유치는 향후 클락워크가 AI 인프라 시장에서 독보적인 입지를 구축할 이정표가 될 전망이다. 특히 대형 클라우드, 슈퍼컴퓨팅 센터, AI 연구기관 등 다양한 수요처에 걸맞은 확장성을 바탕으로 글로벌 시장 공략이 본격화될 것으로 보인다.