맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크 복사 완료 링크가 복사되었습니다.

GPU 의존 낮출까…마인드빔 AI, CPU용 LLM 추론 오픈소스 공개

프로필
강수빈 기자
댓글 0
좋아요 비화설화 0

미국 스타트업 마인드빔 AI가 소비자용 CPU에서 LLM 추론을 가속하는 오픈소스 프레임워크 ‘라이트스파크-인퍼런스’를 공개했다고 전했다.

삼진법(-1·0·+1) 가중치와 SIMD 최적화로 CPU 기반 파이토치 대비 처리량을 최대 96배 높이고 메모리 사용량을 80% 이상 줄였다고 밝혔다.

 GPU 의존 낮출까…마인드빔 AI, CPU용 LLM 추론 오픈소스 공개 / TokenPost.ai

GPU 의존 낮출까…마인드빔 AI, CPU용 LLM 추론 오픈소스 공개 / TokenPost.ai

생성형 인공지능(AI) 구동 비용이 커지는 가운데, 미국 스타트업 마인드빔 AI가 일반 소비자용 CPU만으로 대형언어모델(LLM)을 더 효율적으로 실행할 수 있는 오픈소스 추론 프레임워크를 공개했다. 고가의 GPU 의존도를 일부 낮추려는 시도로, ‘엣지 AI’와 로컬 AI 시장에서 주목할 만한 움직임으로 평가된다.

설립 2년 차인 마인드빔 AI는 16일(현지시간) ‘라이트스파크-인퍼런스(Litespark-Inference)’를 내놨다고 밝혔다. 이 소프트웨어 라이브러리는 애플($AAPL), 인텔($INTC), AMD($AMD), Arm의 CPU에서 ‘삼진법’ 대형언어모델을 더 빠르게 실행하도록 설계됐다. 회사 측에 따르면 기존 CPU 기반 파이토치(PyTorch) 구현과 비교해 처리량은 17배에서 최대 96배까지 개선됐고, 메모리 사용량은 80% 이상 줄었다.

삼진법 모델과 CPU 활용

핵심은 ‘삼진법 모델’에 있다. 일반적인 AI 모델이 다양한 숫자 가중치를 쓰는 것과 달리, 이 방식은 가중치를 -1, 0, +1 세 값으로 제한한다. 정밀도 일부를 희생하는 대신, 추론 과정에서 필요한 대규모 곱셈 연산 부담을 크게 낮출 수 있다. 마인드빔 AI 창업자 겸 최고경영자(CEO) 니 오사에는 “다른 관점에서 접근하고 있다”며 “삼진 비트 모델로 추론할 수 있는 방법을 고민했다”고 설명했다.

이번 공개는 AI 추론 비용이 빠르게 오르는 시점과 맞물린다. 특히 메모리 제약이 큰 온디바이스, 엣지 환경에서는 모델 배포 비용을 줄이려는 수요가 커지고 있다. 지금까지 대다수 LLM 추론은 GPU에 의존해왔지만, GPU는 가격이 높고 공급도 빠듯한 편이다. 마인드빔 AI는 거의 모든 AI 시스템에 함께 탑재되는 CPU가 ‘과소활용된 자원’이라고 보고 있다.

니 오사에는 “추론 파이프라인에서 사용자 입력은 먼저 CPU를 거쳐 GPU로 이동하는데, 지금의 CPU는 사실상 메시지만 전달하고 있다”며 CPU를 추론 스택에 본격적으로 넣을 수 있다고 주장했다. 다만 회사는 GPU를 대체하려는 것은 아니라고 선을 그었다. CPU를 보조 가속기로 활용해 전체 시스템 효율을 높이고, 그 결과 GPU가 더 많은 토큰을 처리하도록 돕는 구조라는 설명이다.

배포 방식과 성능

배포 방식은 두 가지다. 하나는 GPU 없이 로컬 하드웨어만으로 언어모델을 실행하는 방식이고, 다른 하나는 클라우드 사업자를 겨냥한 구조다. 후자의 경우 CPU와 GPU가 분리된 형태의 추론 아키텍처에서 함께 동작한다.

회사 벤치마크에 따르면 애플 M5 프로세서에서 이 프레임워크를 적용했을 때 초당 처리 속도는 약 40토큰에 근접했다. 같은 조건의 파이토치 기반 실행 속도인 초당 2.3토큰 안팎과 비교하면 큰 차이다. 인텔의 AI 가속 명령어 세트인 AVX-512 VNNI를 지원하는 시스템에서는 초당 약 34토큰을 기록했고, 이는 삼진법 최적화가 없는 기준 대비 96배 향상된 수치라고 회사는 밝혔다. 메모리 사용량도 약 4.6기가바이트에서 800메가바이트 미만으로 줄었다.

라이트스파크-인퍼런스는 최신 프로세서의 SIMD 기반 명령어를 활용한다. Arm의 NEON SDOT, 인텔과 AMD의 벡터 신경망 명령어 등을 이용해 한 번의 CPU 명령으로 여러 데이터를 동시에 처리하는 방식이다. 마인드빔 AI는 사용 가능한 프로세서 기능을 자동 감지해 실행을 최적화하는 맞춤형 커널도 개발했다고 밝혔다.

지원 확대 계획

현재 초기 버전은 애플 실리콘, 인텔, AMD 프로세서를 지원한다. 향후에는 아마존웹서비스(AWS)의 인퍼런시아(Inferentia) 같은 클라우드 특화 하드웨어까지 지원 범위를 넓힐 계획이다. 또 기술 적용 대상도 언어모델을 넘어 로보틱스와 엣지 컴퓨팅으로 확장할 방침이다. 회사는 전력 효율이 중요한 로봇용 ‘액션 모델’이 주요 목표라고 밝혔다.

마인드빔 AI는 소스코드를 깃허브에 공개하고 외부 개발자들의 검증도 독려하고 있다. 회사는 올해 안에 클라우드용 상용 버전도 내놓겠다는 계획이다. AI 추론 시장이 GPU 중심에서 ‘CPU+GPU’ 혼합 구조로 넓어질 수 있을지 관심이 쏠린다.

TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.
본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.
광고문의 기사제보 보도자료

많이 본 기사

alpha icon

지금 꼭 알아야 할 리포트

관련된 다른 기사

댓글

댓글

0

추천

0

스크랩

스크랩

데일리 스탬프

0

말풍선 꼬리

매일 스탬프를 찍을 수 있어요!

데일리 스탬프를 찍은 회원이 없습니다.
첫 스탬프를 찍어 보세요!

댓글 0

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요
1