AI와 반도체 기술이 맞물린 엔비디아(NVDA)의 연구개발 환경에서 효율적인 데이터 인프라 구축은 선택이 아닌 필수로 부상하고 있다. 이를 위해 엔비디아는 퓨어스토리지(PSTG)의 자회사인 포트웍스를 도입해 쿠버네티스 기반의 대규모 셀프서비스 데이터 관리 체계를 구축하고 있다. 최근 열린 'KubeCon + CloudNativeCon NA 2025' 행사에서 엔비디아와 포트웍스는 수천 명의 개발자가 트래픽 충돌 없이 연구에 몰두할 수 있도록 해주는 이 인프라 구축 전략을 상세히 소개했다.
엔비디아는 고성능 반도체 설계, 펌웨어 개발, AI 훈련 같은 다수의 워크로드를 온프레미스와 클라우드 환경에서 운영하고 있다. 이 과정에서 포트웍스 플랫폼은 멀티 테넌시 구조를 통해 각각의 개발팀이 자율적으로 스토리지를 할당받아 쓸 수 있도록 돕는다. 플랫폼 엔지니어들은 이와 동시에 시스템의 전반적인 가용성과 탄력성을 유지할 수 있다. 브라이언 먼로 엔비디아 수석 소프트웨어 엔지니어는 “무중단 유지보수와 워크로드 전환이 가능한 인프라는 고도화된 엔지니어링 업무를 유연하게 뒷받침한다”고 강조했다.
포트웍스의 강점은 쿠버네티스 네임스페이스 수준에서 이뤄지는 스토리지 프로비저닝이다. 이를 통해 개발자들은 인프라 티켓 발급 없이도 자체적인 환경에서 지속적인 저장소를 생성하고 활용할 수 있다. 이러한 구조는 반도체 펌웨어 개발팀과 AI 모델링 팀이 동일한 클러스터에서 협업하더라도 데이터 충돌 없이 독립적인 작업이 가능하다는 것을 의미한다. 벤캇 라마크리슈난 포트웍스 부사장은 "수천 명의 개발자를 소수의 플랫폼 엔지니어가 관리하려면 셀프서비스 모델이 핵심"이라며 "이 방식을 통해 기업은 확장성과 민첩성을 동시에 달성할 수 있다"고 설명했다.
엔비디아는 지속적인 확장성을 염두에 두고 인프라를 설계한다. AI 모델 훈련이나 칩 테이프아웃 등 특정 시기에 폭증하는 자원 수요에도 빠르게 대응할 수 있도록 노드와 스토리지를 유연하게 추가해가는 방식이다. 라마크리슈난 부사장은 “산업별 요구사항은 다르지만, 대규모 확장성과 복원력을 유지하려는 근본적인 문제는 공통적”이라면서 “미디어부터 반도체까지, 공통된 성능지표와 SLA 기준을 충족해야 하는 만큼, 셀프서비스 인프라는 전 산업군에서 필수 요소로 자리 잡고 있다”고 진단했다.
이번 발표는 라이브 방송 플랫폼 ‘더큐브(theCUBE)’를 통해 중계되었으며, 후원사인 퓨어스토리지는 인터뷰 내용에 대한 편집적 개입 없이 후원만을 진행했다. 각기 다른 개발팀으로 구성된 대규모 조직에서 어떻게 충돌 없는 자율성과 시스템 통제를 동시에 달성할 수 있는지를 보여준 이번 사례는, 향후 쿠버네티스 기반 기술 도입을 검토하는 기업들에게 중요한 참고선이 될 것으로 보인다.
<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>