급격히 증가하는 AI 연산 성능이 기존 메모리 구조의 한계를 정면으로 마주하고 있는 가운데, 데이터 플랫폼 기업 WekaIO가 새로운 메모리 확장 솔루션으로 해결책을 제시하고 나섰다. WekaIO는 자체 개발한 ‘NeuralMesh’ 기반의 증강형 메모리 그리드 기술을 통해 AI 추론의 처리 속도, 효율성, 확장성을 대폭 향상시키겠다는 전략이다.
콜란 폭스 WekaIO AI 추론 및 데이터 관리 제품 총괄은 “기존 DRAM 기반 메모리 계층의 범위를 확장하고 동일한 속도를 유지하면서 훨씬 큰 용량의 메모리를 사용할 수 있도록 했다”며 “이로 인해 대규모 연산이 필요한 AI 추론 환경에서 병목 현상을 획기적으로 해소할 수 있게 된다”고 설명했다.
아울러 이 기술은 단순처리 모델에서 벗어나 다중 회차 대화, 추론 기반의 자율 에이전트 등 대형 컨텍스트 윈도우를 요구하는 최신 AI 시스템의 실시간 성능을 끌어올리는 데 특화돼 있다. 실제로 Weka는 최신 벤치마크 테스트에서 첫 토큰 생성 시간(time-to-first-token)을 6배 단축했으며, 전체 토큰 처리량은 기존 대비 4.2배 증가시켰다고 밝혔다.
경제적 효과도 상당하다. 현재 고성능 AI 연산에 주로 사용되는 엔비디아 H100 GPU의 가격은 약 3만 달러(약 4,300만 원)이며, 100대 구성 클러스터 비용은 300만 달러(약 43억 2,000만 원)에 달한다. 이때 4.2배의 처리량 증가는 동일한 성능을 76대의 GPU로 구현 가능하게 만들어, 약 720,000달러(약 10억 4,000만 원)의 비용을 절감할 수 있다는 뜻이다.
Weka의 벳시 셔노프 AI 제품 마케팅 총괄은 “단순히 GPU 수를 줄이는 문제가 아니라, ‘얼마를 더 밀어넣을 수 있는가’의 문제로 봐야 한다”며, 증강형 메모리 그리드가 추론 처리량을 극대화하고 재컴퓨팅 부담을 줄이며 GPU 자원을 보다 지능적으로 공급받을 수 있는 기반이 될 것이라고 강조했다.
Weka는 이 기술을 기존 DRAM 및 시스템 메모리와 통합해, 추론 중 생성되는 KV 캐시 데이터를 지속적으로 저장하고 재사용할 수 있는 고속·영속적 메모리 계층으로 활용하고 있다. 이는 DRAM만으로는 대응하기 어려운 대규모 context-aware 연산 환경에서 특히 유용하다.
AI가 단순 질의응답 대신 코드 생성, 다중논리 추론, 자율 에이전트 구성 등으로 다변화되는 오늘날, 추론 성능의 ‘진짜 병목’은 연산량이 아니라 메모리 지능에 있다는 점을 Weka는 정확히 겨냥하고 있다. 앞으로의 AI 인프라 혁신은 얼마나 많은 GPU를 갖추느냐보다, GPU의 자원을 얼마나 효과적으로 쓸 수 있느냐에 따라 판도가 갈릴 것으로 보인다.




