딥시크가 멀티모달 추론 성능을 높이기 위한 새로운 시각적 기본 추론 방법 '비주얼 프리미티브'를 공개했다.
PANews는 30일 딥시크가 멀티모달 작업에서 발생하는 참조 격차 문제를 해결하기 위해 점과 상자 같은 기본 시각 단위를 추론 과정에 통합하는 방식을 제안했다고 보도했다.
이 방식은 DeepSeek-V4-Flash 아키텍처를 기반으로 하며, 압축된 키-값 캐싱을 통해 이미지 토큰 사용량을 최소화하는 것이 특징이다.
딥시크는 카운팅과 공간 추론 벤치마크에서 GPT-5.4, Claude-Sonnet-4.6, Gemini-3-Flash와 유사한 성능을 보였다고 밝혔다. 다만 Gemini-3-Flash와의 비교는 일부 특정 차원에 한정됐다.
딥시크 팀은 앞으로 일부 벤치마크와 데이터를 오픈소스로 공개하고, 모델 가중치는 통합 이후 공개할 예정이라고 설명했다.
<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>
많이 본 기사