엔비디아(NVDA)가 AI 연산 성능의 새로운 기준을 제시했다. 자사의 차세대 AI 반도체 아키텍처인 ‘블랙웰(Blackwell)’ 기반 시스템이 글로벌 벤치마크 시험인 MLPerf에서 모든 항목에서 최고 성능을 기록하며 시장 주도권을 재확인한 것이다.
4일(현지시간) 엔비디아는 블로그를 통해 블랙웰 아키텍처가 AI 대규모 언어 모델(LLM) 트레이닝에서 기존 대비 최대 2.5배의 성능 개선을 기록했다고 밝혔으며, 이는 업계 표준으로 꼽히는 MLPerf의 최신 버전 5.0 테스트를 기준으로 한 자체 측정 결과다. 특히 가장 까다로운 평가 항목인 라마(LLaMA) 3.1 405B 사전학습 벤치마크에서 엔비디아 플랫폼은 전례 없는 속도를 기록했다.
이번 벤치마크에서 엔비디아는 블랙웰 기반 AI 슈퍼컴퓨터 ‘타이케(Tyche)’와 ‘닉스(Nyx)’를 포함해, IBM 및 코어위브(CoreWeave) 등과 손잡고 GB200 NVL72 시스템을 구성해 2,496개의 블랙웰 GPU와 1,248개의 그레이스(Grace) CPU를 활용한 테스트 결과를 제출했다. 이로 인해 엔비디아는 모든 테스트 항목에 결과를 유일하게 제출한 플랫폼이라는 타이틀도 확보했다.
블랙웰 아키텍처의 핵심 강점은 아키텍처 자체의 성능 향상뿐 아니라, 고밀도 액체 냉각 랙, 랙당 13.4TB의 일관 메모리, 차세대 상호연결 기술인 NVLink 및 NVLink 스위치, 그리고 Quantum-2 인피니밴드 네트워킹 등 복합 기술이 결합된 인프라 성능에 있다. 이를 통해 멀티모달 LLM과 그래프 신경망까지 광범위한 AI 워크로드를 자연스럽게 소화할 수 있다는 평가다.
특히 이번 테스트에서는 기존 호퍼(Hopper) 아키텍처와의 직접 비교도 진행됐는데, 라마 2 70B의 LoRA 파인튜닝에서는 똑같은 GPU 수 기준으로 성능이 2.5배 향상된 것으로 나타났다. 이는 블랙웰 아키텍처가 본격적인 AI 팩토리 구현에 적합한 핵심 인프라임을 입증하는 결과로 해석된다.
엔비디아는 단순 칩 제조사에서 시스템 제공업체로, 그리고 이제는 AI 팩토리 인프라 제공 기업으로의 진화를 가속화하고 있다. 최근에는 DGX 서버, 랙 레퍼런스 디자인, AI 전용 데이터센터 구축 등을 통해 파트너사가 신속하게 시장에 진입할 수 있도록 지원하고 있다는 점을 강조했다.
엔비디아의 데이브 살바토르(Dave Salvator) 가속 컴퓨팅 제품 디렉터는 “AI의 투자 단계는 모델 사전학습과 미세조정 단계이며, 이후 실제 산업에 배치해 토큰과 지능을 생성하는 단계에서 수익이 발생한다”며, “MLPerf 벤치마크는 모든 기업이 동일한 기준으로 성능을 검증받는 장으로, 블랙웰의 광범위하고 일관된 우세는 엔비디아의 플랫폼 성숙도를 입증한다”고 강조했다.
이번 MLPerf는 2018년 이후 12번째로 실시된 버전으로, 총 125개 이상의 기업과 기관이 참여하는 비영리 컨소시엄인 MLCommons가 주관한다. 테스트는 단순 속도 비교가 아니라, 모델이 요구 정확도에 도달하는 시간까지를 측정하는 '수렴 시간(Time-to-train)' 방식으로 진행된다.
향후 블랙웰 아키텍처는 추가적인 소프트웨어 최적화와 더 복잡한 신경망 워크로드의 도입과 함께 성능이 지속적으로 향상될 가능성이 높다고 전망된다. 엔비디아는 “아직 블랙웰 아키텍처의 초기 단계에 불과하다”며, 후속 결과는 더욱 인상적일 것이라고 덧붙였다. AI 산업이 점차 ‘에이전틱 AI’ 시대로 나아가는 가운데, 이 새로운 중심축에는 블랙웰이 자리 잡고 있다.