AMD가 엔비디아의 최신 AI 칩을 겨냥해 새로운 데이터센터용 그래픽카드 ‘Instinct MI350’ 시리즈를 공개했다. 이 칩은 기존 자사 제품 대비 성능을 대폭 향상시킨 것은 물론, 일부 작업에서는 엔비디아의 블랙웰 B200을 능가한다고 주장하며 시장의 이목을 집중시키고 있다.
Instinct MI350 시리즈는 MI355X와 MI350X 등 두 가지 제품군으로 구성된다. MI355X는 고성능을 유지하기 위해 액체냉각 방식을 채택했고, MI350X는 일부 성능을 절충하는 대신 공기냉각 방식으로 설계돼 데이터센터 내 설치와 운영이 보다 간편하다. AMD는 두 제품 모두 최대 288GB의 HBM3E 고대역폭 메모리를 탑재하고 있으며, 이는 엔비디아 블랙웰 B200보다 약 60% 더 많은 용량이다.
특히 이번 신제품은 AMD가 대만 TSMC의 3나노 공정을 적용한 8개의 컴퓨팅 칩렛과 6나노 기반의 I/O 칩렛 2개를 결합한 3차원 10칩렛 구조를 도입한 점이 특징이다. 이물질이나 발열 문제를 제어하는 데 있어 이같은 수직적 설계는 고성능 AI 연산에 유리한 조건을 제공한다는 것이 전문가들의 분석이다.
AMD는 MI350 시리즈가 8비트 연산에서는 B200보다 약 10%, 4비트 연산에서는 무려 두 배 이상의 처리 성능을 기록한다고 밝혔다. 최근 AI 모델들이 빠른 연산을 위해 대규모 데이터 단위를 4비트 이하로 압축 처리하는 경향이 커지는 만큼, MI350의 FP4(4비트 부동소수점 연산) 지원은 큰 장점으로 작용할 것으로 보인다.
단일 MI350 칩은 최대 5,200억 개의 파라미터를 갖춘 대형 AI 모델도 실행 가능한 성능을 제공하며, 비용 효율성 측면에서도 GPU당 토큰 처리 비용이 업계 경쟁 제품 대비 약 40% 낮다고 AMD는 설명했다.
또한 AMD는 MI350 시리즈를 기반으로 한 8칩 서버 시스템을 함께 선보였으며, 이 서버는 FP4 기준 최대 160페타플롭스의 연산 능력을 제공할 수 있다. 향후에는 MI400 시리즈로 업그레이드된 ‘Helios’ 랙 시스템도 출시할 계획이다. 해당 시스템에는 AMD의 서버 CPU와 함께 인프라 연산 부하를 분산 처리하는 ‘펜산도’ 데이터 처리 유닛도 탑재한다.
소프트웨어 측면에서 AMD는 자체 AI 개발 플랫폼인 ROCm의 최신 버전인 ROCm 7.0도 공개했다. 이전 세대 대비 추론 성능은 3.5배, AI 학습 성능은 최대 3배 향상됐으며, 다중 GPU에 추론 작업을 효율적으로 분산시켜 처리 속도를 크게 높일 수 있도록 최적화됐다. AMD AI 그룹 부사장 밤시 보파나는 “ROCm 생태계는 지난 1년간 급속히 성숙하며, 오픈소스 커뮤니티와 통합 범위를 넓히고 리더십 성능을 입증하고 있다”고 강조했다.
이번 MI350 시리즈는 AMD가 AI 연산 시장에서 엔비디아의 압도적 독주를 저지하려는 전략적 행보의 일환이다. 차세대 데이터센터용 칩 경쟁이 본격화되는 가운데, 업계는 AMD의 이 같은 도전이 시장 지형에 어떤 변화를 가져올지 주목하고 있다.