AI 확산의 병목은 모델이 아니라 ‘인프라’라는 진단이 커지고 있다.
최근 열린 ‘큐브콘+클라우드네이티브콘 유럽’에서는 인공지능(AI) 경쟁의 핵심이 더 이상 모델 성능만이 아니라는 점이 분명하게 드러났다. 기업들이 AI를 실제 서비스에 올리는 과정에서 가장 크게 막히는 지점은 클라우드, 엣지, 온프레미스로 흩어진 시스템을 하나처럼 운영하지 못하는 구조적 한계라는 분석이다.
새 연구에 따르면 대다수 AI 프로젝트는 실제 운영 단계까지 도달하지 못하고 있으며, 실패 원인도 모델 자체보다 통합과 운영 실행 문제에 집중돼 있다. 더큐브리서치의 수석 애널리스트 폴 나샤와티는 “AI는 기업 인프라의 근본적 결함을 드러내고 있다”며 “클라우드와 엣지, 온프레미스 전반의 파편화가 이제 운영형 AI의 가장 큰 장벽이 됐다”고 짚었다.
‘주권’ 이슈가 AI 인프라를 더 복잡하게 만든다
이 같은 파편화에는 최근 ‘주권’이라는 이름이 붙고 있다. 데이터 주권, 지역 규제, 기업 내부 정책이 맞물리면서 데이터와 워크로드를 한곳에 모으기 어려워졌기 때문이다. 그 결과 AI 시스템은 단일 스택이 아니라 여러 환경에 걸쳐 분산 운영될 수밖에 없는 구조로 바뀌고 있다.
레드햇의 마이크 배럿 하이브리드 플랫폼 부문 부사장 겸 총괄은 각 사업부가 서로 다른 대형언어모델을 쓰는 상황을 예로 들며, 기업 고객들이 원하는 것은 특정 환경용 도구가 아니라 전사 차원의 ‘수평 플랫폼’이라고 설명했다. 레드햇은 이런 문제를 해결하기 위해 모든 환경에서 AI 워크로드를 통합 관리하는 쿠버네티스 기반 제어 계층, 즉 ‘AI용 컨트롤 플레인’ 구축에 집중하고 있다.
쿠버네티스는 오케스트레이션을 넘어 ‘운영 일관성’ 도구로 진화한다
쿠버네티스는 원래 AI 추론을 위해 설계된 기술이 아니다. 본래 역할은 컨테이너 배치와 관리에 가깝다. 하지만 AI 추론이 실제 서비스 환경으로 이동하면서, 지역 간 일관성 부족과 지연시간 변동, 자원 경합, 정책 드리프트 같은 ‘데이투 운영’ 문제가 본격적으로 드러나고 있다.
레드햇의 엔지니어링 디렉터 로버트 쇼는 오픈소스 추론 프레임워크 ‘llm-d’를 언급하며, 사용자들이 최첨단 성능 시스템 구축뿐 아니라 이후 운영 단계의 복잡성까지 함께 해결하려 한다고 설명했다. 결국 AI 시스템이 흔들리는 시점은 학습 단계보다 실서비스 운영 단계라는 의미다.
클라우드네이티브컴퓨팅재단(CNCF) 거버닝보드 부의장 얀 멜렌도 비슷한 문제의식을 내놨다. 그는 클라우드 네이티브가 전 세계 오픈소스 협업으로 발전해 왔지만, AI는 이제 ‘글로벌 일관성’ 위에 세워진 시스템을 지역별 규제와 분산 환경이라는 현실과 충돌하게 만들고 있다고 진단했다.
더큐브리서치의 수석 애널리스트 롭 스트레차이는 “에이전트형 AI의 본질은 모델 문제가 아니라 플랫폼 아키텍처 문제”라며, 앞으로 경쟁력은 더 나은 모델 선택보다 더 나은 인프라 구축에서 갈릴 것이라고 평가했다.
플랫폼 엔지니어링이 AI 운영의 현실적 해법으로 떠오른다
문제는 쿠버네티스가 모든 팀에 직접 다뤄지기엔 너무 복잡하다는 점이다. 레드햇의 AI 부문 최고기술책임자 브라이언 스티븐스는 현재 AI를 만드는 데이터 과학자들이 직접 실행 인프라까지 떠안는 경우가 적지 않다고 말했다. 이 간극을 메우는 방식이 바로 플랫폼 엔지니어링이다.
스트레차이는 파편화된 도구, 인력 역량 차이, 운영 복잡성이 실제 병목으로 부상하면서, 플랫폼 엔지니어링과 쿠버네티스 중심의 통합 제어 구조로 이동하고 있다고 설명했다. 레드햇 오픈시프트 AI는 이런 흐름 속에서 학습, 배포, 서빙, 추론을 하이브리드 환경 전반에 걸쳐 반복 가능한 방식으로 추상화하는 역할을 맡고 있다.
가상머신도 쿠버네티스 안으로 들어오고 있다
기업 인프라는 한 번에 모두 현대화되지 않는다. 청구 시스템, 데이터베이스 같은 핵심 레거시 자산은 위험 관리 때문에 기존 환경에 남는 경우가 많다. 이 때문에 가상머신(VM)과 컨테이너가 이원화된 채 운영되는 문제가 지속돼 왔다.
조사 결과 IT 의사결정권자의 84%는 VM과 컨테이너 환경을 따로 관리하는 데 어려움을 겪고 있는 것으로 나타났다. 레드햇의 다니엘 메서는 “가상화와 컨테이너는 사일로로 남아선 안 되며, 하나의 플랫폼 위에 있어야 한다”고 말했다. CNCF 내에서 성숙 단계로 올라선 쿠브버트(KubeVirt)는 쿠버네티스 안에서 VM과 컨테이너를 함께 운영할 수 있도록 확장하는 프로젝트다.
이는 레거시를 없애는 접근이 아니라, 기존 시스템까지 동일한 제어 계층 안으로 묶어 운영 표면을 통합하려는 전략으로 해석된다.
‘편의성’이 곧 통제권은 아니라는 지적도 나온다
주권형 AI가 대안처럼 보이지만, 실제로는 더 많은 제약을 동반한다는 지적도 있다. 국가별 법규는 데이터 이동을 제한하고, 기업 정책은 중앙집중화를 막는다. 그 결과 기업은 준비 여부와 무관하게 클라우드, 온프레미스, 엣지로 워크로드를 나눠야 한다.
엔터프라이즈DB의 가브리엘레 바르톨리니는 데이터베이스 이동성이 보장되지 않으면 진정한 주권도 없다고 강조했다. 특히 관리형 서비스의 ‘편의성’이 곧 통제권을 의미하지는 않는다고 선을 그었다. 얀 멜렌 역시 주권 논의에서 ‘코드 주권’과 ‘배포 주권’을 구분해야 한다며, 코드는 글로벌 오픈소스 자산으로 남을 수 있지만 실제 배포는 법과 정책의 영향을 직접 받는다고 설명했다.
이 대목에서 쿠버네티스의 역할은 더욱 분명해진다. 전 세계적으로 공유되는 코드를, 지역별 제약이 다른 실행 환경에 맞춰 운영 가능한 형태로 연결하는 것이다.
결국 승부는 생태계가 좌우한다
AI 인프라를 단일 기업이 혼자 책임질 수는 없다. AI용 쿠버네티스 컨트롤 플레인이 작동하려면 다양한 시스템을 대체하는 것이 아니라 연결해야 한다. 이를 가능하게 하는 것이 표준, API, 업스트림 오픈소스 프로젝트로 이뤄진 ‘생태계’다.
나샤와티는 레드햇이 상용 플랫폼을 넘어 CNCF 생태계 전반에서 가장 활발한 기여 기업 중 하나라고 평가했다. 이 같은 업스트림 작업은 단순한 이미지 관리가 아니라, 벤더마다 쿠버네티스 구현이 달라지는 것을 막고 일관성을 유지하는 핵심 장치다. 레드햇은 엔비디아와 함께 ‘레드햇 AI 팩토리’도 추진하며, 오픈시프트와 엔비디아 가속 컴퓨팅을 결합한 확장형 기업용 AI 인프라 구축에도 나서고 있다.
나샤와티는 “최대 75%의 기업이 파편화된 시스템 때문에 두 자릿수 AI 실패율을 겪고 있다는 점을 보면, 병목은 이미 인프라로 이동했다”고 말했다. 이는 기능 부족의 문제가 아니라, 시스템끼리 함께 작동하지 못하는 구조의 문제라는 뜻이다.
AI 시대의 생산 계층으로 쿠버네티스가 부상한다
AI는 특정 한 지점을 무너뜨리기보다 TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.

