차세대 인공지능(AI) 시스템의 설계에서 다시 주목받는 요소는 예상 밖으로 ‘기억’이다. 대규모 데이터 흐름과 복잡한 추론을 요구하는 AI 팩토리 시대에, 메모리 효율성은 성능 향상의 핵심 변수로 부각되고 있다. 델 테크놀로지스(Dell Technologies)의 데이비드 노이 제품관리 부사장은 최근 SC25 컨퍼런스에서 “AI 시스템이 학습이나 추론 과정에서 같은 문맥을 반복 계산하지 않으려면 기억의 일부를 메모리에 유지하는 방식이 필요하다”고 강조했다.
노이 부사장은 특히 대화형 챗봇과 같은 AI 활용 사례를 언급하며, 대화의 흐름이나 문맥을 계속해서 GPU로 재계산하는 것은 처리 자원을 낭비하는 결과를 초래한다고 짚었다. 그는 “추론 작업에서는 이전에 쌓아온 문맥 정보를 일부 보존할 수 있어야 불필요한 GPU 사이클을 피할 수 있고, 이는 처리 속도와 효율성 모두에 이점을 제공한다”고 밝혔다.
이를 위해 델은 vLLM과 LMCache 등의 기술을 자사 인프라에 통합하고, NIXL이라는 새로운 전송 프로토콜을 통해 GPU가 직접 저장 장치와 통신할 수 있도록 했다. 이를 통해 메모리 밖 저장 장치로 문맥 정보를 넘겨 긴 대화 내역을 유지할 수 있으며, GPU는 새로운 계산에만 집중하게 된다. 노이는 이러한 접근이 “초기 응답 토큰 산출 시간을 19배 단축시켰다”며 효율성 향상에 대한 자신감을 내비쳤다.
AI 팩토리가 엑사바이트 단위의 데이터 규모로 확장되면서 전력과 공간 문제도 함께 부상하고 있다. 이에 따라 델은 단순 성능이 아닌 와트당 계산 효율과 랙 유닛당 처리량을 높이기 위한 공동 설계(co-design)에 집중하고 있다. 노이 부사장은 “똑같은 5%의 전력 예산으로 경쟁사 대비 두 배의 성능을 낼 수 있다면, 이는 그 자체로 혁신”이라고 설명했다.
이 같은 전략은 고밀도 데이터센터를 운영하는 기업들에게 특히 매력적이다. 공간과 전력이 제한된 환경에서 최대의 연산 효과를 뽑아내야 한다면, 메모리 구조를 비롯한 하드웨어 최적화는 선택이 아닌 필수다. AI와 고성능 컴퓨팅(HPC)의 융합이 가속화되는 국면에서, 메모리 중심 설계는 AI 인프라의 미래를 가늠하는 중요한 초점이 되고 있다.
델은 이러한 노력을 통해 새로운 형태의 AI 시스템 아키텍처를 선도하겠다는 목표다. AI 팩토리가 발전할수록 ‘지능적인 메모리 핸들링’은 단순한 기술 기능을 넘어, AI 서비스의 속도와 정교함 전반에 광범위하게 영향을 미치는 요인이 되고 있다.
<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>