AI 추론 시대, 쿠버네티스가 바뀐다…클라우드 인프라 '제로베이스 재설계'

| 김민준 기자

쿠버네티스와 인공지능(AI)의 관계가 새로운 국면에 접어들고 있다. 이제 AI 추론은 단순한 소프트웨어 기능을 넘어, 클라우드 인프라의 재설계를 유도하고 있으며, 경량화된 추론 엔진, 하드웨어 중심의 스케줄링, 그리고 심화된 관측 체계(Observability)가 클라우드 전반을 재편하고 있다.

이달 개최된 'KubeCon + CloudNativeCon NA 2025' 행사에서 전문가들은 입을 모아 구식 하드웨어 스택으로는 생성형 AI나 지능형 에이전트 시스템의 추론 작업을 감당할 수 없다고 진단했다. 모델 학습은 일부 기업에 집중될 수 있지만, 추론 수요는 실시간 사용자 앱, 개발 도구, 엣지 장치 등에서 폭넓게 확산 중이다. 이제 AI 추론을 염두에 둔 인프라 설계가 필수인 시대가 도래한 것이다.

TLA 테크의 요프 피스카르는 “모델이 요구하는 처리를 위해선 400Gbps급 네트워크도 고려해야 한다”며, 하드웨어 무관 실행을 목표로 하는 신개념 파이프라인의 필요성을 강조했다. 구글 클라우드의 GKE처럼 플랫폼 차원에서 GPU, TPU, 엣지 디바이스에 상관없이 AI를 실행할 수 있는 범용성을 갖춘 시스템이 늘고 있다는 평가다. 신경망 분산 프레임워크 SynnergAI는 이 같은 발전을 대표하며, 쿠버네티스를 기반으로 한 하드웨어 이질성 극복 사례로 주목받고 있다.

AI의 복잡성이 커질수록 관측 체계도 대응이 필요하다. 더 이상 CPU 점유율이나 응답 시간 같은 전통적 지표만으로는 부족하다. 사용자 프롬프트와 모델의 응답 품질, 사용된 토큰 수와 같은 새로운 데이터가 시스템 성능을 좌우하게 되면서, 관측을 위한 지표와 도구도 근본적 변화가 요구된다. 전문가들은 OpenTelemetry 및 eBPF 기반 도구들이 이를 해결해줄 수 있는 핵심 기술로 부상하고 있다고 분석했다.

AI 중심 워크로드에 맞춰 쿠버네티스도 빠르게 진화하고 있다. 단순히 컨테이너 오케스트레이션을 담당했던 플랫폼에서, GPU 및 가속기 기반 추론 작업의 스케줄링, 고속 네트워크 지원, 예측적 자원 할당 방식까지 소화해야 하는 ‘AI 스택의 신경계’로 자리매김 중이다. CNCF(클라우드 네이티브 컴퓨팅 재단)가 새롭게 도입한 ‘Kubernetes AI 적합성 인증 프로그램’은 GPU/TPU 기반 오케스트레이션 및 원격 감시 표준을 마련하는 역할을 수행한다.

구글 클라우드 또한 이를 뒷받침하고 있다. GKE의 ‘포드 스냅샷’ 기능은 추론 모델의 배포 속도를 최대 80% 단축시키며 추론 첫 응답 지연을 줄이는 데 효과적이다. 이에 따라 많은 플랫폼 개발자들이 인프라 계층에서부터 AI 친화적인 구조를 고려하는 ‘제로베이스 설계’에 눈길을 돌리고 있다.

쿠버네티스를 공동 설계했던 켈시 하이타워는 이 플랫폼이 약 20년은 지속될 수 있도록 설계됐다고 밝힌 바 있다. 출범 11년째인 지금, 업계가 던지는 질문은 ‘쿠버네티스 이후는 무엇인가’가 아니라, ‘AI라는 주력 워크로드에 맞춰 쿠버네티스는 어떻게 바뀌는가’로 전환됐다. 전문가들은 쿠버네티스가 AI 시대를 위한 필수 기반 기술로 진화하고 있다고 진단한다. AI 추론 최적화, 스케줄링 지능화, 고도화된 관측 시스템을 갖춘 차세대 쿠버네티스의 방향성이 이번 KubeCon을 통해 구체화되고 있다.