라이트비츠, AI 추론 효율화 혁신으로 클라우드 비용 절감

김민준 기자

2026.03.12 (목) 00:28

라이트비츠 랩스가 클라우드 비용을 줄이기 위해 새로운 AI 추론 아키텍처를 발표했습니다. 이 플랫폼은 메모리 병목 현상을 해결해 처리 효율성을 높입니다.

라이트비츠, AI 추론 효율화 혁신으로 클라우드 비용 절감 / TokenPost.ai

테크 산업의 진보는 인공지능(AI) 분야의 혁신을 통해 가속화되고 있다. 라이트비츠 랩스는 최근 대규모 AI 추론에서 발생하는 메모리 병목 현상을 해결하기 위해 새로운 아키텍처를 발표했다. 이 아키텍처는 ScaleFlux와 FarmGPU와의 협력을 통해 개발되었으며, 비휘발성 메모리 익스프레스 스토리지와 GPU 추론 인프라, 라이트비츠의 소프트웨어를 결합하여 AI 시스템이 추론 중 생성되는 데이터 캐시를 더욱 효율적으로 관리할 수 있도록 돕는다.

클라우드 운영업체들이 추론 작업을 처리하는데 있어 비용 부담을 느끼고 있는 가운데, 이번 발표는 희소식이 될 전망이다. GPU의 높은 비용은 운영의 많은 부분을 차지하는 문제가 되며, 이를 개선하기 위해 라이트비츠는 GPU의 활용도를 최적화하는 목표를 설정했다.

라이트비츠의 새로운 플랫폼은 GPU 한 대가 처리할 수 있는 요청 수를 늘리는 방식으로 추론 효율성을 강화한다. 이는 직접적으로 처리 당 비용 절감으로 이어진다는 점에서 의미가 크다. 라이트비츠의 시험 결과, 동일한 GPU에서 처리 요청 수를 세 배로 늘리면서도 전력과 인프라 비용을 65% 줄이는 데 성공했다고 한다.

이번 해결책의 핵심은 'KV-캐시'에 있다. 이 캐시는 추론 과정에서 생성되는 중간 벡터를 저장하며, 이전 계산 결과를 재사용해 불필요한 연산을 피할 수 있게 한다. 그러나 모델의 확장과 함께 캐시 크기도 급속히 증가하고 있다. 메모리 요구량이 매년 두 배 이상으로 증가하면서 장기적으로 이 문제를 해결하기 위한 다양한 노력이 필요하다. 라이트비츠는 이를 위해 데이터 이동을 예측하고 GPU에 필요한 정보를 미리 제공하는 혁신적인 접근 방식을 도입했다.

[토큰분석] 에이브(Aave), 부실채권 2000억 원 발생…디파이 거버넌스 붕괴의 예고된 참사

알파리포트 전문 보기 →

LightInferra는 메모리 계층 전반에 걸쳐 데이터의 이동을 관리, 가속시키며, GPU가 데이터를 대기하지 않도록 설계했다. 이러한 시스템은 GPU 메모리 용량을 초과하지 않는 한도 내에서 추론 파이프라인의 원활한 작동을 보장한다. 클라우드 사업자는 이 설계를 통해 GPU 사용을 최적화하거나, 현재의 인프라 내에서 총 처리량을 늘릴 수 있는 기회를 가질 것이다. 이번 아키텍처는 네오클라우드와 협력하여 7월부터 생산 배치가 예정되어 있다.

본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.

광고문의 기사제보 보도자료

#인공지능 #클라우드서비스 #테크혁신

텔레그램에서 토큰포스트 속보 보기