AI 추론, GPU 대신 SSD로…‘저비용 고효율’ 시대 연다

| 김민준 기자

인공지능(AI) 기술이 고도화됨에 따라, 기업들이 AI 추론 성능을 높이면서도 비용은 낮출 수 있는 혁신적인 인프라 전략을 모색하고 있다. 특히 고대역폭 메모리의 비용 부담이 커지면서, 기존 GPU 중심 모델에서 벗어나 전체 시스템 효율성과 총소유비용(TCO)을 고려한 새로운 접근이 주목받고 있다.

최근 미국 뉴올리언스에서 개최된 슈퍼컴퓨팅 콘퍼런스(SC25)에서 메트럼AI(Metrum AI)와 솔리다임(Solidigm)이 공동 개발한 AI 추론 최적화 아키텍처가 주목을 받았다. 이들은 고성능 낸드플래시 기반 스토리지를 활용해 벡터 데이터베이스와 신경망 일부 계층까지 오프로드하는 방식을 소개하며, 데이터 센터의 효율성과 정확도를 모두 충족하는 대안을 제시했다.

메트럼AI의 스틴 그레이엄(Steen Graham) CEO는 “메모리보다 상대적으로 저렴한 SSD에 데이터를 저장하는 방식으로 시스템 메모리 풋프린트를 획기적으로 줄일 수 있다”며, 이를 통해 고성능을 유지하면서도 비용을 낮추는 것이 가능하다고 설명했다. 특히 GPU 자원이 부족하거나 구형 하드웨어를 사용하는 기업 입장에서는 이 같은 방식이 매력적인 해법이 될 수 있다는 평가다.

솔리다임은 인텔 출신 핵심 기술진으로 이뤄진 SK하이닉스 자회사로, 고대역폭 비디오 분석까지 가능한 비전-언어 모델을 실시간으로 처리하는 솔루션을 함께 시연했다. S3 동영상이나 감시 카메라 영상처럼 대용량 데이터를 다뤄야 하는 기업 환경에서, 메모리가 아닌 저장장치를 기반으로 한 인프라 구성은 비용 절감과 성능 균형 측면에서 주목받고 있다.

에이스 스트라이커(Ace Stryker) 솔리다임 AI·에코시스템 마케팅 디렉터는 “스토리지 장치 자체만 중시하는 것이 아니라, 시스템 전반의 자원이 유기적으로 어떻게 작동하는지에 집중해야 한다”며, 효율적인 AI 추론 시스템 구축을 위한 접근법의 전환을 강조했다. 그는 또 "확대되는 KV 캐시(키-밸류 저장 캐시)에 SSD를 활용할 수 있는 여지도 크다"고 덧붙였다.

양사는 디스크 관련 인덱싱 기술인 DiskANN을 비롯해, 수백억 개의 파라미터를 가진 모델을 구형 GPU 위에서도 구동할 수 있는 배치 처리 기반 아키텍처를 적용 중이다. 이들은 "정확도 확보와 ROI 창출이 AI 인프라 설계의 핵심"이라며, 시간이 지날수록 AI 팩토리 내 스토리지 역할이 더욱 중요해질 것이라고 내다봤다.

이번 논의는 기존 AI 추론 방식이 단순히 연산 성능에 의존하는 시대에서 탈피, 저장장치를 중심으로 한 시스템 최적화 전략으로 진화하고 있음을 보여준다. AI 메모리 병목 문제를 해소하려는 업계의 새로운 실험이, 향후 기업용 AI 인프라 전반에 패러다임 전환을 가져올지 주목된다.