엔비디아, 슬럼 개발사 인수…AI 소프트웨어 생태계 확장 가속

| 김민준 기자

엔비디아(NVDA)가 머신러닝 분야에서 핵심적인 역할을 담당해온 오픈소스 클러스터 관리 툴 ‘슬럼(Slurm)’의 개발사 스케드엠디(SchedMD)를 인수했다. 이번 인수를 통해 엔비디아는 하드웨어뿐 아니라 소프트웨어 부문에서도 인공지능(AI) 성능 최적화를 위한 기반을 확장하게 됐다. 인수 금액은 비공개다.

2010년 설립된 스케드엠디는 슬럼을 통해 수천 개의 GPU를 동시에 제어하며 대규모 AI 모델을 효율적으로 훈련하도록 돕는 역할을 해왔다. 슬럼은 특히 병렬 연산 최적화 기능과 유연한 커스터마이징 기능을 바탕으로 전 세계 상위 슈퍼컴퓨터 절반 이상에서 사용되고 있다. 기존 사용자에는 정부 기관, 금융사, 헬스케어 기업 등을 포함해 수백 곳이 명단에 있다.

슬럼의 가장 큰 강점은 클러스터 환경 내 GPU 자원의 정교한 배분이다. 여러 GPU를 동시에 사용하는 AI 연산에서 병목 현상이 발생하지 않도록 하드웨어를 자동으로 스케줄링하며, 데이터 교환이 잦은 작업은 같은 물리서버에 적절히 배치해 네트워크 지연을 줄인다. 슬럼과 유사한 기능을 제공하는 쿠버네티스(Kubernetes)도 있지만, 슬럼은 AI 워크로드에 특화된 확장성과 세밀한 튜닝 옵션에서 앞선 평가를 받는다.

엔비디아는 이번 인수를 계기로 슬럼을 계속 오픈소스로 유지할 계획이라고 밝혔다. 더불어 스케드엠디의 고객을 위한 전문 기술지원 서비스도 지속 제공할 방침이다. 특히 향후 라빈(Rubin) GPU 및 베라(Vera) CPU와 같은 차세대 칩과 슬럼 간 연동 최적화를 통해 자사 AI 생태계의 경쟁력을 끌어올릴 전략이다.

주목할 점은 스케드엠디가 슬럼 외에도 슬링키(Slinky)라는 오픈소스 프로젝트를 병행 개발해왔다는 것이다. 슬링키는 쿠버네티스 환경에서 슬럼을 운영할 수 있도록 지원해 이중 클러스터 환경 없이도 단일 시스템에서 효율적 운영이 가능하게 만들었다. 이는 서버 통합을 통한 자원 활용률 개선과 비용 절감으로 이어질 수 있다.

엔비디아의 이번 결정은 AI 및 슈퍼컴퓨팅 전반에서 소프트웨어 기술력 확보가 핵심 경쟁력이 된다는 판단에서 비롯된 것으로 풀이된다. GPU와 CPU 같은 반도체 하드웨어 중심에서 벗어나, 이를 최대한 효율적으로 사용하는 소프트웨어 스택까지 통합하려는 AI 플랫폼화 전략이 본격적으로 가시화되고 있다. 슬럼의 기술력과 스케드엠디의 전문 인력이 향후 엔비디아의 대형 시스템 설계 및 고객 맞춤형 인프라 구축에 상당한 기여를 할 것이란 분석이 나온다.