AI 워크로드의 급속한 확산이 마침내 클라우드 컴퓨팅의 핵심 철학을 흔들고 있다. 기존에는 개발자들이 하드웨어에 대한 우려 없이 클라우드에서 손쉽게 시스템을 구축할 수 있었다면, 이제는 AI 추론 엔진과 대형 모델이 복잡한 인프라 문제를 전면에 끌어올리고 있다. 최근 미국 시애틀에서 열린 KubeCon + CloudNativeCon NA 2025 행사에서는 이러한 변화가 명확하게 드러났다. 참가자 다수는 AI 인프라의 확장 과정에서 '하드웨어 추상화'라는 클라우드의 약속이 더 이상 통하지 않는다고 평가했다.
특히 추론 엔진과 에이전틱(AI 자율 수행) 시스템의 수요가 증가하면서 대규모 네트워크 대역폭, 저지연 환경, 가속기 관리가 핵심 과제로 떠오르고 있다. 분석가 요에프 피스카에르는 "과거에는 하드웨어에서 멀어졌지만, 이제는 400G 네트워크도 고려해야 할 만큼 모델의 요구 수준이 높아졌다"고 밝혔다. 이와 같은 요구는 단순한 기술 문제가 아니라, 클라우드 네이티브 아키텍처 전반을 재정립해야 하는 과제로 연결된다.
보안을 중심으로 한 AI 통제 역시 핵심 이슈로 부상 중이다. 레드햇은 자사 OpenShift AI 솔루션을 통해 온프레미스와 멀티클라우드 환경 모두에서 '데이터 주권'과 제로 트러스트 보안 아키텍처를 실현하고 있다. 레드햇 관계자들은 향후 양자 컴퓨팅 시대에도 대비해 PQC(양자 이후 암호화) 기술을 플랫폼 전반에 도입하고 있으며, '비인가 데이터 접근 불가'를 핵심으로 하는 컨피덴셜 컴퓨팅까지 확대됨에 따라 AI 보안의 새로운 기준을 제시하고 있다고 설명했다.
이와 더불어, AI 인프라의 경제성도 점차 중요해지고 있다. 엔비디아는 포트웍스를 통해 개발자들에게 셀프서비스 방식의 데이터 인프라를 제공하며 연구개발의 효율을 높이고, 다중 노드 간 작업 전환 기능으로 다운타임 없이 유지보수가 가능하게 한다. 한편 AMD 아키텍처를 기반으로 한 벌처의 클라우드 컴퓨팅 시리즈는 비용 대비 성능을 82%까지 개선한 것으로 나타나면서 AI 생명과학 분야에서 주목을 받고 있다.
쿠버네티스(GKE)의 진화 역시 주목할 만하다. 구글은 플랫폼 차원의 AI 지원을 확대하며 GKE 오토파일럿, 인퍼런스 게이트웨이, 에이전트 샌드박스와 같은 구성 요소를 차례로 도입했다. 이를 통해 생산 환경에서도 대규모 AI 모델을 안정적으로 실행할 수 있는 기반을 마련했다. 특히 Agent Sandbox는 코드 실행 전 사전 테스트를 허용하는 격리 환경을 구축하여, 생성형 AI의 무분별한 코드 실행으로 인한 보안 위험을 낮추도록 설계됐다.
마지막으로, 쿠버네티스의 오픈소스 기반 생태계는 여전히 확장 중이다. 개발자들은 이를 기반으로 AI 중심의 유연하고 독립적인 인프라 시스템을 설계하고 있으며, 이러한 흐름은 클라우드와 엣지 양쪽에서 모두 가속화되고 있다. 시장조사기관 포레스터의 분석가 리 수스타는 "협업을 통한 기술 통합과 표준화가 AI 인프라 혁신의 열쇠가 되고 있다"고 강조했다.
AI 시대의 도래로 인해 인프라 구조는 다시 한 번 거대한 전환기를 맞고 있다. 쿠버네티스를 중심으로 클라우드, 엣지, 보안, 비용 최적화를 포괄하는 새로운 인프라 패러다임이 형성되고 있으며, 이 변화는 선택이 아닌 필수가 되어가고 있다.




