아마존의 클라우드 컴퓨팅 서비스인 AWS가 AI 인프라 경쟁에서 주도권을 확보하기 위해 자사 머신러닝 플랫폼 세이지메이커(SageMaker)의 기능을 대거 강화했다. 이번 업그레이드는 관찰 가능성 개선, 개발 환경 확장, GPU 클러스터 자원 효율 관리 등 기존 플랫폼의 한계를 보완하는 방향으로 진행됐다.
세이지메이커는 지난 2024년부터 데이터 통합과 머신러닝 툴을 아우르는 통합 플랫폼으로 진화해 왔다. 이번 업데이트에서는 모델 성능 하락의 원인을 추적할 수 있는 '하이퍼팟 관찰 도구'가 추가됐다. 이를 통해 AI 엔지니어는 연산, 네트워크, 저장소 등 시스템의 다양한 계층을 실시간으로 모니터링하고 문제 발생 시 정밀하게 원인을 파악할 수 있다. 예를 들어, 일시적인 GPU 과열 문제로 모델 학습 성능이 저하되는 상황에도 신속하게 메트릭을 확인하고 조치를 취할 수 있게 된다.
아울러 로컬 개발 환경도 유연하게 지원된다. 사용자는 주피터랩(JupyterLab)이나 코드 에디터(Code Editor) 같은 AWS 제공 IDE뿐 아니라 자신이 설치한 플러그인 기반의 로컬 IDE에서도 작업을 이어갈 수 있다. AWS는 이번에 보안 원격 실행 기능을 통합해 로컬에서 작성한 코드 역시 세이지메이커의 클라우드 리소스를 활용해 대규모 실행이 가능하도록 만들었다. 이는 확장성과 생산성을 동시에 확보하려는 기업 개발자들의 오랜 요구를 반영한 것이다.
연산 자원의 유연한 배분도 강화됐다. AWS는 지난 2023년 말 하이퍼팟(HyperPod) 기능을 도입해 고성능 GPU 클러스터의 스케줄링을 자동화한 바 있다. 이제는 모델 훈련뿐 아니라 추론 작업까지도 하이퍼팟을 통해 처리할 수 있도록 확장됐다. 이는 대부분의 추론이 사용자가 몰리는 주간 시간대에 이뤄지고, 훈련은 비혼잡 시간에 스케줄되는 점을 고려한 결정이다. 개발자들은 하이퍼팟 내에서 우선순위를 설정해 미션 크리티컬한 AI 추론 작업을 실시간으로 배분할 수 있다.
이번 업데이트는 단순한 기능 향상을 넘어, AWS가 AI 경쟁에서 택한 인프라 중심 전략의 일환이라는 점에서 주목된다. 구글(GOOGL)과 마이크로소프트(MSFT)가 자체 생성형 AI 모델과 개발 플랫폼을 전면에 내세우는 전략을 고수하는 반면, AWS는 세이지메이커나 베드록(Bedrock)을 중심으로 기업 고객이 원하는 도구와 자원을 안정적으로 제공하는 데 초점을 두고 있다. AI 에이전트를 비롯한 실사용 제품을 자체 개발하기보단, 고객이 그들만의 제품을 구축할 수 있는 기반을 제공하는 방식을 택하고 있는 셈이다.
AWS 세이지메이커 총괄 안쿠르 메흐로트라(Ankur Mehrotra)는 “이번 업데이트는 고객들이 실제 개발 과정에서 겪은 문제를 바탕으로 설계됐다”며 "AI 모델이 잘못 작동하는 원인을 진단하고, 손쉽게 확장하며, 효율적으로 인프라를 운영하는 데 초점이 맞춰져 있다"고 설명했다. 실제로 AI 스타트업 H AI의 공동 창업자인 로랑 시프레(Laurent Sifre)는 “세이지메이커 하이퍼팟을 통해 학습과 추론을 유기적으로 전환할 수 있었고, 실시간 환경에서도 일관된 성능과 빠른 결과를 얻을 수 있었다”고 평가했다.
현재 AWS는 전 세계에서 가장 많은 기업 고객이 사용하는 클라우드 플랫폼임을 자산으로 삼고 있다. 마이크로소프트가 포춘 500 기업 중 70% 이상을 자사의 데이터 및 AI 플랫폼 '패브릭(Fabric)'으로 끌어들였고, 구글도 버텍스 AI(Vertex AI)를 통해 조용히 기업 시장을 잠식하고 있는 상황에서, AWS는 세이지메이커를 중심으로 '기업 친화적 AI 인프라'라는 차별화된 경쟁력을 강화하고 있다.
한발 앞선 인프라 전략이 향후 AWS의 AI 시장 점유율 확대에 얼마나 기여할 수 있을지 업계의 관심이 쏠린다.