구글, GKE 통한 AI 추론 표준화 선언… “마이크로서비스처럼 다룬다”

| 김민준 기자

구글(GOOGL)이 자사의 쿠버네티스 플랫폼 GKE(Google Kubernetes Engine)를 강화하며, AI 추론 작업의 속도와 비용 효율을 대폭 개선하겠다는 새로운 전략을 내놨다. 이번 발표는 2025년 KubeCon + CloudNativeCon 북미 행사에서 공개됐으며, 엔터프라이즈 시장을 겨냥해 쿠버네티스 기반 AI 워크로드의 표준화와 자동화에 초점을 맞추고 있다.

GKE 추론 기능 확대는 단순한 기술 실험 단계를 넘어, 실제 프로덕션 환경에서 반복 가능하고 예측 가능한 모델 서빙 패턴을 구축하는 데 초점이 맞춰져 있다. 구글 클라우드의 기술 전문가 켈시 하이타워(Kelsey Hightower)는 "과거에는 AI 추론 최적화를 위해 다양한 방식을 시도했지만, 지금은 이를 쿠버네티스 API로 정형화해 사용할 수 있도록 하는 것이 관건"이라고 밝혔다. AI 추론 작업을 단순한 실험이 아닌 서비스화된 컨트랙트로 전환시키는 것이 핵심이라는 설명이다.

실제 엔터프라이즈 환경에서는 다양한 AI 요청이 존재한다. 짧은 질의응답부터 수백 페이지에 달하는 문서 요약까지, 백엔드 시스템에 가해지는 부하가 천차만별이다. 이처럼 비정형적이고 가변적인 추론 요청은 플랫폼 팀에게 상당한 과제를 던진다. 이에 따라 스케줄링, 로드 밸런싱, 가속기 활용 전략까지 표준화할 필요성이 커지고 있다. 구글 클라우드의 제품 관리자 아크셰이 람(Akshay Ram)은 “우리는 오픈소스 커뮤니티와 협력해 하드웨어 독립적인 AI 추론 프레임워크를 개발 중이며, 점차 완성도를 높여가고 있다”고 전했다.

이번 전략의 궁극적인 목표는 추론을 특수한 워크로드가 아닌 일반적인 마이크로서비스처럼 다루는 것이다. GKE 플랫폼 안에서 기존 웹 서비스처럼 확장성과 경제성을 고려한 방식으로 서빙할 수 있도록 도와주는 구조다. 이러한 시도는 단순한 기술 확장이 아닌 조직 혁신과 비용 절감을 동시에 이끌어낼 수 있는 해법으로 떠오르고 있다.

또 다른 구글 클라우드 관계자 에디 빌랄바(Eddie Villalba)는 "AI 추론은 본질적으로 새로운 일종의 워크로드이며, 규모에는 차이가 있지만 본질적으로 기존 쿠버네티스 리소스 모델을 그대로 활용할 수 있는 영역"이라며, "기초를 탄탄히 다져두면 어떤 모델 서버나 가속기를 도입하더라도 손쉽게 적용 가능하다"고 덧붙였다.

이번 발표는 GKE 플랫폼이 AI 워크로드의 표준 인프라로 자리잡는 데 있어 추론의 일관성과 재사용성을 어떻게 확보할 수 있는지를 명확하게 보여줬다는 평가다. 특히 초기 도입 단계에서부터 비용과 성능 최적화를 병행할 수 있도록 설계돼, 기업의 AI 전환 속도를 가속화할 것으로 전망된다.

AI 인프라 탄탄한 구축 없이는 고도화된 추론 기술도 무용지물이다. GKE는 이번 전략을 통해 쿠버네티스 기반 AI 서빙의 사실상 표준 플랫폼으로서 한 걸음 더 나아갔다. AI 추론이 더 이상 특수한 '파일럿 프로젝트'가 아닌 일상적인 워크로드로 자리잡을 날이 머지않아 보인다.