xAI의 최근 사례는 대규모 엔비디아 서버용 GPU를 확보하더라도 이를 효율적으로 활용하는 문제가 AI 학습의 핵심 병목 가운데 하나로 남아 있음을 보여줬다고 Odaily가 The Information을 인용해 보도했다.
보도에 따르면 AI 개발사들이 엔비디아 연산 자원을 두고 경쟁하면서 GPU 공급 부족은 이미 널리 알려진 문제지만, 최근에는 확보한 자원을 얼마나 효율적으로 쓰느냐가 새로운 과제로 떠오르고 있다.
AI 모델 학습은 짧은 시간 동안 GPU를 집중적으로 사용한 뒤 결과 분석과 전략 조정 과정에서 유휴 상태가 발생하는 이른바 비정형적 사용 패턴을 보인다. 이 때문에 대규모 GPU 클러스터는 지속적인 고가동률을 유지하기 어렵고, 하드웨어를 충분히 확보한 상황에서도 연산 자원 낭비가 발생할 수 있다고 매체는 전했다.
업계에서는 이런 문제에 대응하기 위해 단순히 GPU 규모를 늘리는 데 그치지 않고, 학습 아키텍처와 스케줄링 시스템을 다시 설계해 전체 활용 효율을 높이려는 움직임이 나오고 있다.

