엔비디아($NVDA)가 인공지능(AI) 데이터센터용 네트워크 기술을 한층 끌어올렸다. 새로 공개한 ‘멀티패스 릴라이어블 커넥션(MRC)’은 초대형 GPU 클러스터에서 병목과 장애를 줄이기 위한 기술로, 오픈AI와 마이크로소프트($MSFT)가 실제 AI 학습 환경에 이미 적용하고 있다는 점이 핵심이다.
이번 발표는 단순한 네트워크 업그레이드가 아니다. 엔비디아는 그동안 범용 인프라로 여겨지던 이더넷을 ‘AI 네이티브’ 네트워크로 바꾸겠다는 구상을 분명히 했다. 특히 MRC는 스펙트럼-X(Spectrum-X) 이더넷 플랫폼 위에서 작동하며, 수만~수십만 개의 그래픽처리장치(GPU)가 동시에 돌아가는 ‘AI 팩토리’ 환경을 겨냥한다.
MRC는 원격 메모리 직접 접근(RDMA) 기반 전송 프로토콜이다. 쉽게 말해 하나의 연결을 여러 네트워크 경로로 나눠 보내고, 혼잡이나 장애가 생기면 실시간으로 우회하도록 설계됐다. 이 방식은 특정 경로에 트래픽이 몰려 생기는 병목을 줄이고, 짧은 장애가 발생해도 대규모 AI 학습 작업이 멈추지 않도록 돕는다.
엔비디아에 따르면 오픈AI는 이미 스펙트럼-X 기반 MRC를 활용해 챗GPT와 코덱스(Codex)를 구동하는 최신 대형언어모델(LLM) 학습에 이 기술을 사용했다. 마이크로소프트도 GB200 시스템 기반 대형 AI 팩토리 일부에 이를 도입하고 있다. 실험실 수준 기술이 아니라 실제 운영 환경에서 검증된 기술이라는 의미다.
이번 발표는 세 가지 축으로 요약된다. 먼저 MRC 자체가 새로운 전송 계층 역할을 한다. 하나의 RDMA 연결을 여러 경로로 확장하고, 혼잡 신호와 경로 상태를 반영해 최적의 전송 상태를 유지한다. 두 번째는 스펙트럼-X가 이를 구동하는 기반 플랫폼이라는 점이다. 세 번째는 이 규격이 오픈 컴퓨트 프로젝트(OCP)를 통해 공개된다는 점이다. 개발에는 엔비디아 외에도 오픈AI, 마이크로소프트, AMD($AMD), 브로드컴($AVGO), 인텔($INTC)이 참여했다.
엔비디아는 여기서도 ‘개방형 표준, 차별화된 구현’ 전략을 택했다. 패킷 규격 자체를 독점하지 않고 누구나 구현할 수 있는 형태로 공개하되, 실제 성능 차이는 네트워크 인터페이스 카드, 스위치, 호스트 소프트웨어를 얼마나 촘촘하게 연동하느냐에서 갈린다는 설명이다. 즉, 표준은 열어두되 최적화 역량은 자사 하드웨어와 소프트웨어 통합에 있다는 주장이다.
MRC가 중요한 이유는 초대형 AI 학습에서 네트워크가 사실상 ‘연산 파이프라인의 일부’가 됐기 때문이다. 수만 개 GPU가 한 번에 학습하는 환경에서는 몇 밀리초의 링크 장애나 혼잡도 전체 학습 효율을 떨어뜨릴 수 있다. 이는 곧 시간 지연과 비용 증가로 이어진다.
MRC는 이런 문제를 여러 방식으로 완화한다. 먼저 ‘멀티패스 로드 밸런싱’을 통해 단일 흐름을 여러 경로에 분산시켜 네트워크 자원을 더 고르게 쓴다. 여기에 ‘혼잡 인지 라우팅’을 더해 과부하가 걸린 링크를 피하고, 데이터 손실 시에는 빠르고 정밀한 재전송을 수행한다. 엔비디아는 경로 장애가 발생해도 하드웨어 차원에서 마이크로초 단위로 우회할 수 있다고 설명했다.
길라드 샤이너 엔비디아 수석부사장은 이 기술이 네트워크의 ‘두뇌’를 호스트까지 확장한 것이라고 설명했다. 기존 이더넷 환경에서는 보통 스위치가 라우팅을 주도하고 사용자는 서버 바깥 네트워크를 세밀하게 제어하기 어렵다. 하지만 MRC에서는 슈퍼NIC과 호스트 측 관리 소프트웨어가 라우팅 판단에 직접 개입할 수 있다. 오픈AI처럼 클라우드 인프라를 직접 소유하지 않더라도, 자신에게 맞는 학습 작업에 맞춰 네트워크 동작을 조정할 수 있다는 뜻이다.
이 구조는 특히 ‘호스팅 사용자’와 ‘인프라 소유자’가 분리된 환경에서 의미가 크다. 예컨대 오픈AI는 마이크로소프트 인프라 위에서 대규모 AI 모델을 운영하지만, 모든 스위치를 직접 관리하는 구조는 아니다. 그럼에도 MRC를 활용하면 서버 측 소프트웨어와 NIC를 통해 라우팅 정책, 혼잡 대응, 장애 회피에 일정 수준까지 관여할 수 있다. AI 생태계가 더 다층화될수록 이런 방식의 수요는 커질 가능성이 높다.
이번 발표에서 또 하나 주목할 부분은 ‘멀티플레인’ 아키텍처다. 이는 GPU 사이를 잇는 네트워크를 하나가 아니라 여러 개의 독립된 경로 집합으로 구성하는 방식이다. 쉽게 말해 동일한 동서 트래픽을 처리할 수 있는 병렬 네트워크를 여러 벌 두는 구조다. 스펙트럼-X는 이 멀티플레인 환경에서 하드웨어 가속 기반 부하 분산을 제공하고, 특정 경로 장애나 유지보수 상황에서도 다른 플레인으로 트래픽을 넘겨 학습 중단을 최소화한다.
MRC는 이 멀티플레인 구조 위에서 더 효율적으로 작동한다. 여러 병렬 네트워크를 단순 백업 경로가 아니라 능동적으로 활용하면서 성능과 복원력을 동시에 높이는 것이다. 결과적으로 이더넷이 기존 범용 데이터센터 네트워크를 넘어, AI 학습에 맞춰 설계된 전용 패브릭으로 진화하고 있다는 신호로 읽힌다.
엔비디아는 MRC를 기존 기술의 완전한 대체재로 보지는 않는다. 현재 스펙트럼-X는 최소 두 가지 AI용 이더넷 전송 방식을 지원한다. 하나는 스위치와 NIC 수준의 적응형 최적화에 초점을 둔 ‘어댑티브 RDMA’이고, 다른 하나가 멀티패스와 호스트 주도 제어를 강화한 MRC다. 고객의 워크로드와 운영 방식에 따라 서로 다른 프로토콜을 선택할 수 있다는 의미다.
이는 업계의 또 다른 표준화 움직임인 울트라 이더넷 컨소시엄(UEC)과도 맞물린다. UEC는 여러 기업이 참여해 차세대 이더넷 기반 RDMA 패브릭을 정의하려는 시도다. 다만 엔비디아는 장기적으로 하나의 ‘승자’만 남는 구조보다는, 하이퍼스케일러와 AI 사업자들이 각자 필요에 맞는 전송 프로토콜을 병존시키는 방향을 예상하고 있다.
이런 맥락에서 MRC는 이미 실사용 단계에 들어간 ‘맞춤형 AI 이더넷’ 사례로 볼 수 있다. UEC가 여전히 발전 중인 반면, MRC는 마이크로소프트의 GB200 기반 클러스터와 오픈AI 환경에서 실제 구동되고 있다. 이는 엔비디아가 네트워크 경쟁에서도 단순 칩 공급업체를 넘어 사실상의 아키텍처 설계자로 영향력을 넓히고 있음을 보여준다.
산업 전반에서 보면 이번 발표는 세 가지 흐름을 분명히 한다. 첫째, AI 확산으로 이더넷 자체가 빠르게 세분화되고 있다. 과거처럼 데이터센터 전체를 하나의 이더넷 개념으로 설명하기 어려워졌고, 버퍼 구조, 혼잡 제어, RDMA 방식, AI 특화 전송 기술이 각각 달라지고 있다. 둘째, 개방형 규격과 독자적 구현의 조합이 새로운 표준이 되고 있다. 셋째, UEC만이 미래의 정답이라는 관점은 힘을 잃고 있으며, 여러 방식이 공존하는 ‘다극화’ TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.
<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>
많이 본 기사