PANews에 따르면 DeepSeek 팀이 차세대 플래그십 모델 DeepSeek V4 공개를 앞두고 에이전트 워크로드에 특화된 새로운 추론 시스템 ‘DualPath’를 제안하는 학술 논문을 발표했다.
논문에서 DeepSeek는 대규모 언어모델(LLM)을 활용한 에이전트 시스템 환경에 맞춰 추론 성능을 최적화한 시스템 구조를 소개했다. 핵심은 ‘DualPath 읽기 KV 캐시’ 메커니즘으로, 메모리 캐시와 유사한 KV 캐시를 이중 경로로 읽어 스토리지와 네트워크 부하를 재분배하는 방식이다.
DeepSeek 측은 이 구조를 적용할 경우 오프라인 추론 처리량이 최대 1.87배, 온라인 서비스 환경에서 초당 평균 에이전트 실행 횟수가 1.96배까지 증가하는 것으로 나타났다고 밝혔다.
논문은 또한 대규모 모델이 단일 턴 챗봇이나 독립형 추론 모델에서 벗어나, 자율적인 계획 수립·도구 호출·다중 턴 상호작용을 통해 실제 작업을 수행하는 ‘에이전트 시스템’으로 빠르게 진화하고 있다고 짚었다. 이에 따라 기존의 ‘사람-모델’ 단일 상호작용에서 ‘사람-모델-환경’이 반복적으로 상호작용하는 구조로 워크로드가 바뀌고 있으며, 상호작용 횟수는 수십~수백 회에 이를 수 있다고 설명했다.
이번 DualPath 제안은 이러한 에이전트 중심 LLM 사용 패턴에 맞춰 추론 인프라 효율을 극대화하기 위한 시도로 평가된다.
<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>