AI 추론 기술이 점점 정교화되는 가운데, 기존 메모리 구조의 한계를 뛰어넘기 위한 엔비디아(NVDA)와 웨카IO(WekaIO)의 공동 전략이 주목 받고 있다. 두 기업은 슈퍼컴퓨팅 행사 'SC25'에서 인공지능 연산에 최적화된 차세대 메모리 확장 시스템을 공개하며, 급증하는 AI 워크로드에 대응할 수 있는 인프라 혁신 구상을 밝혔다.
웨카IO가 공개한 새로운 메모리 계층 아키텍처는 GPU 메모리와 외장 스토리지 사이에서 키-값(KV) 캐시 데이터를 실시간 수준으로 스트리밍함으로써 처리 속도를 끌어올리는 구조다. 이 시스템은 엔비디아가 제공하는 '다이너모(Dynamo)'와 'NIXL'과 긴밀히 통합돼, 분산 처리 환경에서 대형 언어모델(LLM)의 추론 속도를 최대 40배까지 향상시킬 수 있다는 것이 업체의 설명이다.
시몬 벤-데이비드(Shimon Ben-David) 웨카IO 최고기술책임자(CTO)는 "우리는 AI가 문제가 아니라 가능성을 보여주는 기술이라고 본다"며 "KV 캐시 인프라를 가속함으로써 생성되는 토큰과 결과물이 폭발적으로 증가하게 된다"고 강조했다. 실제로 이 기술이 상용화되면 사용자는 영상을 검색하거나 정보를 요약하는 데 드는 시간이 획기적으로 단축될 수 있다.
엔비디아는 이번 시스템이 단순한 캐시 효율화 전략에 머물지 않고, 대규모 AI 추론을 위한 고성능 컴퓨팅 솔루션과도 직결된다고 설명했다. 디온 해리스(Dion Harris) 엔비디아 상무는 "NIXL은 스토리지 파트너가 계층형 메모리 전반에 걸쳐 실시간 캐시 데이터를 처리할 수 있도록 돕는 신규 전송 라이브러리"라고 설명하며, 이 프로토콜이 AI 추론의 확장성과 안정성을 동시에 끌어올린다고 밝혔다.
양사는 이 구조가 나아가 RAG(Retrieval-Augmented Generation) 모델과도 연동됨으로써, 환각(hallucination) 현상을 줄이고 사실 기반 응답의 정밀도를 높이는 데에도 효과적이라고 평가했다. 이는 기업들이 자사 데이터를 활용해 AI의 품질을 끌어올리는 데 중요한 진전이다.
웨카IO는 이미 여러 고객사에서 해당 인프라가 적용된 다양한 실험적 AI 프로젝트를 진행 중이며, 구체적으로는 챗봇, 의미 검색, 비디오 기반 인퍼런싱 등에 활용되고 있다고 전했다. 여기에 자율주행 및 로보틱스 환경에 특화된 '물리적 지능(physical intelligence)' 사례도 빠르게 늘고 있어, AI 추론이 현실 세계로 확장되는 새로운 전환점이 될 수 있다는 관측도 나온다.
이번 발표는 인공지능의 대중화가 하드웨어 구조 자체의 혁신 없이는 한계에 부닥칠 수밖에 없다는 점을 시사한다. 엔비디아와 웨카는 이러한 변화를 선도하며 맞춤형 고성능 메모리 인프라로 차세대 AI 경제의 기반을 다지고 있다. AI 추론 시장이 폭발적으로 성장하는 현재, 메모리 병목은 단순한 기술적 과제가 아니라 산업 전체의 성장을 가늠하는 중요한 변수로 떠올랐다.
<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>