지푸가 일부 기업 고객에게 GLM-5.1 고속판 API를 제공하기 시작했다고 오데일리가 보도했다.
해당 모델의 출력 속도는 초당 400토큰으로, 지푸는 공식 API 기준 대형언어모델의 엔드투엔드 처리 속도 기록을 경신했다고 설명했다.
이번 고속판은 기존 플래그십 모델 성능을 유지하면서 지푸와 TileRT 팀이 공동 개발한 고성능 추론 엔진을 적용했다. GPU 실행 스케줄링을 재구성해 추론 과정의 지연을 줄이는 방식이다.
서비스는 현재 지푸 MaaS 플랫폼의 일부 기업 고객에게 개방됐다. 지푸는 향후 FP8 추론과 초장문 컨텍스트 기능을 고도화해 AI 코딩, 실시간 상호작용, 실시간 음성 등 저지연 분야를 지원할 계획이다.
<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>
많이 본 기사