맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크 복사 완료 링크가 복사되었습니다.

라이트비츠, AI 추론 효율화 혁신으로 클라우드 비용 절감

프로필
김민준 기자
댓글 0
좋아요 비화설화 0

라이트비츠 랩스가 클라우드 비용을 줄이기 위해 새로운 AI 추론 아키텍처를 발표했습니다. 이 플랫폼은 메모리 병목 현상을 해결해 처리 효율성을 높입니다.

 라이트비츠, AI 추론 효율화 혁신으로 클라우드 비용 절감 / TokenPost.ai

라이트비츠, AI 추론 효율화 혁신으로 클라우드 비용 절감 / TokenPost.ai

테크 산업의 진보는 인공지능(AI) 분야의 혁신을 통해 가속화되고 있다. 라이트비츠 랩스는 최근 대규모 AI 추론에서 발생하는 메모리 병목 현상을 해결하기 위해 새로운 아키텍처를 발표했다. 이 아키텍처는 ScaleFlux와 FarmGPU와의 협력을 통해 개발되었으며, 비휘발성 메모리 익스프레스 스토리지와 GPU 추론 인프라, 라이트비츠의 소프트웨어를 결합하여 AI 시스템이 추론 중 생성되는 데이터 캐시를 더욱 효율적으로 관리할 수 있도록 돕는다.

클라우드 운영업체들이 추론 작업을 처리하는데 있어 비용 부담을 느끼고 있는 가운데, 이번 발표는 희소식이 될 전망이다. GPU의 높은 비용은 운영의 많은 부분을 차지하는 문제가 되며, 이를 개선하기 위해 라이트비츠는 GPU의 활용도를 최적화하는 목표를 설정했다.

라이트비츠의 새로운 플랫폼은 GPU 한 대가 처리할 수 있는 요청 수를 늘리는 방식으로 추론 효율성을 강화한다. 이는 직접적으로 처리 당 비용 절감으로 이어진다는 점에서 의미가 크다. 라이트비츠의 시험 결과, 동일한 GPU에서 처리 요청 수를 세 배로 늘리면서도 전력과 인프라 비용을 65% 줄이는 데 성공했다고 한다.

이번 해결책의 핵심은 'KV-캐시'에 있다. 이 캐시는 추론 과정에서 생성되는 중간 벡터를 저장하며, 이전 계산 결과를 재사용해 불필요한 연산을 피할 수 있게 한다. 그러나 모델의 확장과 함께 캐시 크기도 급속히 증가하고 있다. 메모리 요구량이 매년 두 배 이상으로 증가하면서 장기적으로 이 문제를 해결하기 위한 다양한 노력이 필요하다. 라이트비츠는 이를 위해 데이터 이동을 예측하고 GPU에 필요한 정보를 미리 제공하는 혁신적인 접근 방식을 도입했다.

LightInferra는 메모리 계층 전반에 걸쳐 데이터의 이동을 관리, 가속시키며, GPU가 데이터를 대기하지 않도록 설계했다. 이러한 시스템은 GPU 메모리 용량을 초과하지 않는 한도 내에서 추론 파이프라인의 원활한 작동을 보장한다. 클라우드 사업자는 이 설계를 통해 GPU 사용을 최적화하거나, 현재의 인프라 내에서 총 처리량을 늘릴 수 있는 기회를 가질 것이다. 이번 아키텍처는 네오클라우드와 협력하여 7월부터 생산 배치가 예정되어 있다.

본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.

<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>

광고문의 기사제보 보도자료

많이 본 기사

미션

매일 미션을 완료하고 보상을 획득!

미션 말풍선 닫기
말풍선 꼬리
출석 체크

출석 체크

0 / 0

기사 스탬프

기사 스탬프

0 / 0

관련된 다른 기사

댓글

댓글

0

추천

0

스크랩

스크랩

데일리 스탬프

0

말풍선 꼬리

매일 스탬프를 찍을 수 있어요!

데일리 스탬프를 찍은 회원이 없습니다.
첫 스탬프를 찍어 보세요!

댓글 0

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요
1
오늘 하루 열지 않음[닫기] Close

토큰포스트 프리미엄 멤버십, 이 모든 혜택을 무료로 시작하세요

AI신호 + 60강좌 + BBR매거진 + 에어드랍 WL 기회까지!