中 딥시크, 잔차 연결 넘는 차세대 AI 아키텍처 'mHC' 공개

| 김민준 기자

중국의 AI 연구기관 딥시크(DeepSeek)가 차세대 인공지능 학습 성능을 대폭 향상시킬 수 있는 새로운 아키텍처를 발표했다. ‘mHC(Manifold-Constrained Hyper-Connections)’로 명명된 이 기술은 대규모 언어 모델(LLM)과 시각 인식 모델에서 필수적인 ‘잔차 연결(residual connection)’ 방식을 뛰어넘는 구조로, 학습 정확도는 물론 하드웨어 효율성까지 끌어올렸다는 평가를 받고 있다.

mHC는 기존 ‘하이퍼 커넥션(Hyper-Connections)’ 기술을 개선한 방식이다. 하이퍼 커넥션은 딥러닝 모델의 층(layer) 간 정보를 더 효율적으로 전달하도록 도와주는 구조로 주목 받았지만, 실제 운영 환경에서는 각종 기술적 제약으로 널리 쓰이지 못했다. 딥시크는 이 한계를 ‘매니폴드(manifold)’ 개념을 결합함으로써 극복했다. 매니폴드는 수학적으로 다층 구조를 가진 공간으로, 간단한 원형부터 3차원을 넘는 복잡 구조까지 다양하다. 딥시크는 mHC가 이러한 매니폴드 기반 구조를 활용해 모델 학습 중 생성되는 그라디언트(오차 역전파 신호)의 안정성과 일관성을 확보하는 데 핵심 역할을 한다고 설명했다.

딥시크는 이 아키텍처의 성능을 검증하기 위해 각각 30억, 90억, 270억 개의 파라미터를 가진 세 종류의 LLM을 mHC 구조로 학습시켰고, 동일 스펙의 모델을 하이퍼 커넥션 기반으로 각각 비교 실험했다. 그 결과 mHC 구조의 모델이 총 8개의 벤치마크에서 일관되게 더 뛰어난 성능을 보였다는 것이 회사 측 주장이다. 특히 메모리 요구량 측면에서 기존 구조보다 효율적인 학습이 가능했으며, 훈련 시 발생하는 하드웨어 오버헤드는 6.27% 수준에 그친 것으로 보고됐다.

딥시크 연구진은 “매니폴드 기반의 위상 구조와 최적화 알고리즘 간 관계를 더 깊이 이해함으로써, mHC는 현재 AI 모델의 한계를 극복하고 차세대 기반 인프라 설계의 새로운 길을 열 수 있을 것”이라며 기술적 의의를 강조했다.

이번 발표는 최근 AI 학습 아키텍처에 대한 전 세계적인 재검토 움직임 속에 나온 것이란 점에서 주목된다. 기존의 잔차 연결 방식은 2015년 딥러닝 연구에서 도입된 이후 LLM과 이미지 분류 모델에 광범위하게 사용돼 왔다. 이 구조는 마지막 출력층에서 생성되는 오차신호가 거슬러 올라가며 전 층에 학습 정보를 전달하는 방식인데, 이 과정에서 발생하는 정보 왜곡 현상을 보완해주는 역할을 해왔다.

그러나 AI 모델이 점차 초대형화되면서 이 잔차 연결의 한계가 드러났고, 이를 개선하기 위한 다양한 시도들이 이어져 왔다. 딥시크의 mHC는 이러한 맥락에서 나온 최신 기술로, AI 산업 전반의 근간이 되는 모델 학습 효율성 개선에 직접적인 기여를 할 수 있다는 분석이 나온다.