세레브라스, 오픈AI 새 모델 gpt-oss-120B '초당 3,000토큰' 실현…비용도 60배 낮춰

| 김민준 기자

초고속 AI 추론 전문 기업 세레브라스(Cerebras Systems)가 오픈AI(OpenAI)의 새로운 오픈소스 모델 'gpt-oss-120B'를 자사 플랫폼에서 초당 3,000토큰 속도로 구동할 수 있다고 밝혔다. 이는 기존 클라우드 기반 대형언어모델(LLM)의 처리 속도를 압도적으로 뛰어넘는 수준으로, 지능형 AI 애플리케이션에 있어 반응성과 비용 측면에서 획기적인 진전을 의미한다.

세레브라스의 공동 창업자이자 CEO인 앤드류 펠드먼(Andrew Feldman)은 이번 발표를 “AI 커뮤니티에 있어 전환점”이라면서, “단순히 속도 기록을 경신하는 것을 넘어, 가능성의 경계를 재정의하는 일”이라고 강조했다. 지난 2019년 GPT-2 이후 처음으로 공개된 이번 오픈소스 모델은 오픈AI가 공개한 최초의 추론 중심 대규모 오픈모델이기도 하다. 1,200억 개의 파라미터로 구성된 gpt-oss-120B는 구글(GOOGL)의 제미니 2.5 플래시, 앤트로픽의 클로드 4 오푸스 등과 같은 최신 상용 모델과 대등한 성능을 보인다고 세레브라스는 설명했다.

현재 해당 모델은 초당 약 3,000토큰 입력을 처리하는 한편, 가격은 입력 1백만 토큰당 25센트(약 360원), 출력 1백만 토큰당 69센트(약 990원) 수준이다. 반면 클로드 4 오푸스 모델은 입력과 출력에 각각 $15(약 2만 1,600원), $75(약 10만 8,000원)의 비용이 드는 것으로 알려져 비용 측면에서 60배 이상 저렴하다. 현재 클로드 4 오푸스의 토큰 처리 속도는 초당 56으로, 세레브라스의 3,000과 비교하면 약 55배 성능 차를 보인다.

지능형 LLM은 일반적으로 다단계 추론을 거쳐야 하므로 응답 지연이 불가피한데, 세레브라스는 기존 GPU 방식의 한계를 자체 설계한 대형 반도체 웨이퍼와 통합형 소프트웨어 솔루션으로 뛰어넘었다. 펠드먼은 “이 정도 처리 속도와 비용 구조라면 지금껏 불가능했던 AI 활용 방식들이 새로운 비즈니스로 구현될 것”이라고 설명했다.

이 회사는 단순한 하드웨어 업체가 아닌 풀스택 시스템 기업으로서, API, SDK, 온프레미스 및 클라우드 배포 옵션을 모두 제공한다는 점도 강조했다. 특히 민감한 데이터나 규제를 받는 산업군에서는 오픈모델을 사내에서 초고속으로 활용할 수 있다는 점이 큰 이점으로 작용할 수 있다. 세레브라스 API는 오픈AI와 동일한 방식으로 연결되며, 기존 코드를 수정할 필요 없이 단 15초 만에 통합이 가능하다고 회사는 밝혔다.

세레브라스는 이번 공개를 맞아 버셀(Vercel)을 기본 배포 파트너로 선정했으며, 허깅페이스(Hugging Face), 오픈라우터(OpenRouter) 등 다양한 인프라 파트너를 통해 개발자 접근성을 극대화했다. 덕분에 전 세계 수백만 명의 개발자가 해당 모델을 즉시 실험하고 피드백을 보내는 선순환이 기대된다.

AI 추론 시장은 현재 빠르게 재편되고 있다. 단가 경쟁과 속도 혁신을 동시에 이뤄낸 세레브라스의 방식이 오픈에코시스템 기반 차세대 AI 서비스의 표준을 어떻게 바꿀지 주목된다.