엔비디아(NVDA)가 인공지능(AI) 인프라의 성능과 확장성을 크게 향상시킬 새로운 네트워크 기술과 추론 서빙 솔루션을 발표했다. 데이터센터 규모 한계를 뛰어넘는 ‘기가스케일(Giga-scale) 네트워킹’을 도입하고, AI 모델 추론 속도를 4배 향상시킬 새로운 기술도 공개했다.
엔비디아는 자사의 AI 전용 이더넷 스위칭 플랫폼 ‘스펙트럼-X(Spectrum-X)’를 확장한 ‘스펙트럼-XGS’를 선보였다. 스펙트럼-XGS는 서로 다른 데이터센터를 하나의 거대한 GPU처럼 작동하도록 연결하는 기술이다. 기존 데이터센터 내 확장을 의미하는 ‘스케일 업’이나 ‘스케일 아웃’을 넘어서, ‘스케일 어크로스(Scale Across)’라는 새로운 개념을 제시했다. 이를 통해 데이터센터 간 복잡한 AI 워크로드를 효율적으로 분산 처리할 수 있게 됐다.
AI 데이터 흐름에서 지터(데이터 도착 시간의 변동성)와 지연(latency)을 최소화하는 것도 스펙트럼-XGS의 핵심 강점이다. 이러한 특성은 수백만 개의 토큰이 오가는 최첨단 언어 모델이 원활하게 작동하기 위한 필수 조건으로, 엔비디아의 전용 네트워킹 기술이 중요한 역할을 하게 된다.
또한 지난 5월 공개된 ‘NV링크 퓨전(NVLink Fusion)’은 대규모 데이터센터 내 수백만 개 이상의 GPU를 연결해 내부 확장성을 확보하는 데 최적화되어 있다. 이번에 공개된 스펙트럼-XGS는 NV링크 퓨전과 더불어 내부와 외부 확장을 동시에 아우르는 이중 확장 아키텍처를 완성한 셈이다.
한편, AI 모델을 운영하는 방식도 점점 발전하고 있다. 엔비디아는 ‘다이너모(Dynamo)’라는 새로운 추론 서빙 플랫폼을 통해 ‘분산 추론 처리(disaggregated serving)’ 기술을 연구 중이다. 이는 ‘프리필(prefill)’과 ‘디코드(decode)’ 과정을 서로 다른 GPU에 나눠 실행해 처리속도를 높이는 방식이다. GPT-OSS, DeepSeek 같은 대표적 모델에서 이 기술을 사용할 경우 초당 토큰 생성 속도가 기존보다 최대 4배까지 빨라지는 것으로 나타났다.
추가로 엔비디아는 ‘추측 디코딩(speculative decoding)’ 기법도 테스트하고 있다. 이 방식은 작은 보조 모델이 메인 모델의 다음 토큰을 예측해 속도를 높이는 전략이다. 보조 모델의 예측이 메인 모델에서 검증될 경우 결과가 채택되며 추론 지연을 줄일 수 있다. 초기 테스트 결과, 이 기술만으로도 약 35%의 성능 향상이 보고됐다.
엔비디아 제품 담당 디렉터 데이브 살바토어(Dave Salvator)는 “AI 모델의 상호작용이 실시간처럼 느껴지도록 지연 시간을 200밀리초 이하로 유지하는 것이 핵심이며, 이러한 기술이 추론 처리의 성능, 효율성, 비용 측면에서 모두 돌파구가 될 것”이라고 말했다.
AI가 추론 중심 구조로 전환되는 흐름 속에서, 엔비디아는 하드웨어와 소프트웨어 전반에 걸쳐 새로운 표준을 제시하고 있다. 특히 AI 모델이 생성하는 방대한 토큰을 지연 없이 처리할 수 있는 인프라를 구축하는 것은 차세대 데이터센터의 경쟁력을 가르는 핵심 지표가 되고 있다. 엔비디아의 이번 발표는 이 같은 기술적 요구에 정확히 부합하며, AI 산업 전반의 네트워킹과 컴퓨팅 아키텍처를 다시 정의하고 있다는 평가가 나온다.