인공지능(AI)의 도입은 클라우드 컴퓨팅의 한계를 드러내고 있다. 최신 AI 기술의 확산으로 기존 클라우드의 추상화 계층이 실시간 성능 요구에 부응하지 못하면서 AI 관찰 가능성(observability)이 선택이 아닌 필수 요소로 자리 잡고 있다. GPU 클러스터의 확장과 추론 워크로드의 증가로 클라우드 컴퓨팅이 근본적인 변화를 맞이하고 있다.
코어위브(CoreWeave)의 체인 골드버그 부사장은 "AI는 단순한 어플리케이션 범주를 넘어서는 워크로드 모델이며, 기존의 클라우드 인프라가 이를 감당하는 데에 한계가 있다"고 밝혔다. AI 워크로드는 클라우드 아키텍처가 근본적으로 다른 규모와 속도에 맞춰 적응하도록 요구한다는 것이다.
AI 관찰 가능성의 중요성은 개발자와 연구자가 AI 결과를 신뢰하기 위해 필수적이다. AI가 클라우드를 재구성하는 방식에 대해 논의한 골드버그 부사장은 "컴퓨팅과 스토리지, 네트워크가 모두 중요한 AI 워크로드 시스템에서 발생하는 작업을 이해하고 주도적으로 대응할 수 있어야 한다"고 강조했다. 코어위브는 AI 훈련과 추론 워크로드에 특화된 인프라를 설계하여 AI 서비스가 기존 하이퍼스케일 기반에 굴복하지 않도록 했다.
또한, AI 환경에서는 GPU와 스토리지, 모델이 지속적으로 발전하고 있기 때문에, 시스템의 복잡성이 병목 현상이 될 수 있다. 이를 해결하기 위해 최적의 스택을 구성하여 간소화된 아키텍처를 구축하고, 새로운 분산 캐싱 메커니즘을 개발하여 컴퓨팅 최적화를 이루고 있다고 덧붙였다.
이와 같은 직관적인 AI 관찰 가능성의 필요성은, 새로이 맞이하고 있는 클라우드 1.0의 한계 아래에서 더욱 두드러지고 있다. AI를 통해 혁신의 가능성이 탐색되고 있는 이 시점에서 클라우드 인프라는 계속해서 진화하고 있다.
<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>