그로크 $ 20,000 LPU 칩, GPU 주도 업계의 AI 성능 기록 경신

Shutterstock

인공지능 분석 기관 ArtificialAnalysis.ai가 최근 실시한 벤치마크에서 그로크의 LPU(Inference Engine)가 대형 언어 모델의 처리 효율성에서 새로운 기록을 세웠다. 이 연구에서 그로크는 지연 대 처리량 및 총 응답 시간을 포함한 여러 주요 성능 지표에서 여덟 참가자를 앞섰다. 그로크의 웹사이트에 따르면, LPU는 특히 Meta AI의 Llama 2-70b 모델과의 뛰어난 성능으로 "지연 대 처리량 차트에 그로크를 표시하기 위해 축을 확장해야 했다"고 밝혔다.

ArtificialAnalysis.ai에 따르면, 그로크 LPU는 초당 241토큰의 처리량을 달성하여 다른 호스팅 제공 업체의 능력을 크게 초월했다. 이 수준의 성능은 경쟁 솔루션의 두 배에 달하며, 여러 도메인에서 대형 언어 모델에 대한 새로운 가능성을 열 수 있다. 그로크의 내부 벤치마크는 이 성취를 더욱 강조하며, 300토큰/초에 이르는 속도를 기록하며 기존 솔루션 및 기업 제공 업체들이 아직까지 달성하지 못했다고 주장했다.

혁신의 핵심, GroqCard™ 가속기

이 혁신의 핵심은 소비자에게 19,948달러에 구매 가능한 GroqCard™ 가속기에 있다. 기술적으로 이 카드는 성능 면에서 최대 750 TOPs (INT8) 및 188 TFLOPs (FP16 @900 MHz)를 자랑하며, 칩 당 230MB SRAM과 최대 80 TB/s의 칩 내 메모리 대역폭을 제공한다. 이는 전통적인 CPU 및 GPU 설정을 능가하며 특히 LLM 작업에서 탁월한 성능을 보여준다. 이러한 성능 향상은 LPU가 단어당 계산 시간을 크게 줄이고 외부 메모리 병목 현상을 완화함으로써 빠른 텍스트 시퀀스 생성을 가능하게 한 결과이다.

비슷한 가격대의 엔비디아의 주력 A100 GPU와 그로크 LPU 카드를 비교할 때, 그로크 카드는 간단한 데이터(INT8)의 대량 처리에서 속도와 효율성이 중요한 작업에서 뛰어나며, A100이 성능을 향상시키기 위해 고급 기술을 사용하더라도 견줄 만하다. 그러나 더 높은 정밀도를 필요로 하는 복잡한 데이터 처리 작업(FP16)에서는 그로크 LPU가 A100의 성능 수준에 도달하지 못한다.

실제로 두 구성 요소는 AI 및 ML 계산의 다른 측면에서 뛰어나며, 그로크 LPU 카드는 특히 LLMs를 빠르게 실행하는 데 매우 경쟁력이 있다. 그로크는 LPU를 LLMs를 실행하기 위한 도구로 위치시키고 있으며, 단순한 계산이나 모델 튜닝보다 우수한 성능을 제공한다.

웹사이트에서 그로크의 Mixtral 8x7b 모델을 쿼리한 결과, 초당 420토큰으로 처리되었다.

“그로크는 머신러닝 모델을 실행하는 강력한 도구로, 특히 프로덕션 환경에서 빛을 발한다. 모델 튜닝이나 교육에 가장 적합한 선택은 아니지만, 뛰어난 성능과 낮은 지연 시간으로 사전 훈련된 모델을 실행하는 데 능숙하다.”

그로크LPU의 집중적인 칩 내 메모리 대역폭에 중점을 둔 직접적인 메모리 대역폭 비교는 덜 명확하다. 이는 AI 워크로드에 미치는 지연 감소 및 칩 내 데이터 전송 속도를 크게 향상시켜준다.

AI 및 기계 학습을 위한 컴퓨터 구성 요소의 진화

그로크의 언어 처리 장치 도입은 컴퓨팅 하드웨어의 진화에서 중요한 이정표가 될 수 있다. 전통적인 PC 구성 요소인 CPU, GPU, HDD 및 RAM은 독립된 그래픽과 통합 그래픽이 소개된 이후로 기본 형태에서 상대적으로 변하지 않았다. LPU는 LLMs의 처리 능력을 최적화하기 위한 전문적인 접근 방식을 소개하여 로컬 장치에서 실행되는 것이 유리해질 수 있는 컴퓨팅 하드웨어의 새로운 단계를 나타낸다. ChatGPT 및 Gemini와 같은 서비스가 클라우드 API 서비스를 통해 실행되는 반면, 온보드 LLM 처리의 개인 정보, 효율성 및 보안 면에서의 이점은 무수히 많다.

초기에는 3D 그래픽 렌더링을 완화하고 가속화하기 위해 설계된 GPU는 동시 작업을 수행할 수 있는 능력 때문에 게임 및 과학 계산에서 필수적인 구성 요소가 되었다. 그러나 이러한 발전에도 불구하고 이러한 구성 요소의 기본 구조는 주로 일반 목적 컴퓨팅 작업 및 그래픽 렌더링에 중점을 둔 채로 유지되었다.

그로크의 LPU 추론 엔진의 등장은 특히 LLMs가 제기하는 독특한 도전 과제에 대응하기 위해 공학적으로 설계된 패러다임 전환을 나타낸다. CPU 및 GPU는 다양한 응용 프로그램을 위해 설계된 반면, LPU는 언어 처리 작업의 계산적으로 중요하고 순차적인 성격에 맞게 특별히 제작되었다. 이 중점은 LPU가 AI 언어 응용 프로그램의 특별한 요구 사항에 대응할 때 전통적인 컴퓨팅 하드웨어의 한계를 뛰어넘을 수 있도록 한다.

LPU의 주요 차별 요소 중 하나는 우수한 컴퓨팅 밀도와 메모리 대역폭이다. LPU의 설계는 단어당 계산 시간을 크게 줄이고 외부 메모리 병목을 제거함으로써 텍스트 시퀀스를 빠르게 처리할 수 있게 한다. 이는 LLM 응용 프로그램에서 텍스트 시퀀스를 빠르게 생성하는 데 중요한 이점이다.

기존 설정에서 CPU 및 GPU가 메모리에 대한 외부 RAM에 의존하는 반면, 칩 내 메모리는 칩 자체에 직접 통합되어 있어 데이터 전송에 대한 지연이 크게 줄고 더 높은 대역폭이 제공된다. 이 아키텍처는 데이터가 프로세서와 별도의 메모리 모듈 간에 여행해야 하는 시간 소모적인 여행을 제거함으로써 AI 워크로드의 처리 효율성을 위해 빠른 데이터 액세스를 허용한다. 그로크 LPU의 놀라운 칩 내 메모리 대역폭은 80 TB/s에 이르며, GPU는 높은 오프칩 메모리 대역폭을 자랑할지라도 칩 내 접근 방식에서 제공되는 속도와 효율성을 따라잡지 못한다.

LLMs에 최적화된 프로세서를 만들면 AI 연구 및 개발 커뮤니티에서 특화된 하드웨어 솔루션에 대한 증가하는 수요를 충족시킬 수 있다. 이러한 움직임은 AI 하드웨어에 대한 혁신의 새로운 물결을 촉발시킬 수 있으며, 다양한 AI 및 기계 학습 워크로드의 다른 측면에 특화된 처리 장치로 이끌 수 있다.

컴퓨팅이 계속해서 진화함에 따라 LPU가 CPU 및 GPU와 함께 도입되면, 하드웨어 개발에서 새로운 단계를 나타내며, 점점 특화된 영역으로 나아가고 있다. 이는 전반적인 글로벌 AI 및 기계 학습 애플리케이션의 특별한 요구 사항을 고려한 최적화된 하드웨어의 필요성을 시사한다.

광고문의ㅣ기사제보ㅣ보도자료