TPC로
네이버페이 교환

링크복사
공유
댓글
추천
스크랩
인쇄
글자크기

링크가 복사되었습니다.

글자크기

가

작게

가

보통

가

크게

가

매우크게

인공지능 테크

구글, ‘제미나이 3.1 플래시 라이트’ 공개…고속·저비용으로 대규모 트래픽 겨냥

민태윤 기자

2026.03.04 (수) 08:52

구글이 응답 지연과 운영 비용을 낮춘 경량 모델 ‘제미나이 3.1 플래시 라이트’를 개발자 프리뷰로 공개하고 AI 스튜디오와 버텍스 AI에서 제공한다고 밝혔다.

입력 100만 토큰당 0.25달러, 출력 100만 토큰당 1.50달러부터 과금하며 첫 토큰 응답 2.5배·출력 45% 속도 개선 등 고빈도 대량 처리 업무를 겨냥했다고 전했다.

구글, ‘제미나이 3.1 플래시 라이트’ 공개…고속·저비용으로 대규모 트래픽 겨냥 / TokenPost.ai

Google이 ‘제미나이 3.1 플래시 라이트(Gemini 3.1 Flash Lite)’를 공개했다. 응답 속도를 끌어올리면서 운영 비용을 낮춘 경량 모델로, 대규모 트래픽을 처리해야 하는 기업·개발자 수요를 정면으로 겨냥했다.

개발자 프리뷰로 먼저 공개…AI 스튜디오·버텍스 AI에서 제공

Google은 3.1 플래시 라이트를 제미나이 API 기반으로 Google AI 스튜디오(Google AI Studio)에서 개발자 프리뷰 형태로 제공하고, 기업 고객은 버텍스 AI(Vertex AI)를 통해 사용할 수 있도록 했다.

Google은 이번 모델을 제미나이 3(Gemini 3) 라인업 가운데 ‘가장 빠르고 비용 효율적인’ 모델로 소개하며, 지연 시간(latency)과 비용이 핵심 변수가 되는 ‘고빈도·대량 처리’ 업무에 맞춰 설계했다고 밝혔다.

토큰 과금은 ‘입력 0.25달러·출력 1.50달러’부터

가격은 100만 입력 토큰당 0.25달러(약 370원), 100만 출력 토큰당 1.50달러(약 2,217원)부터 시작한다. Google이 현재 제공하는 AI 모델 중에서도 낮은 비용 구간에 속하는 옵션으로, 특히 대규모 서비스에서 총비용(TCO)을 압박하는 추론 비용을 줄이려는 팀에 매력적인 선택지가 될 수 있다.

벤치마크: 첫 토큰 응답 2.5배, 출력 45% 더 빠르게

Google이 제시한 벤치마크에 따르면 3.1 플래시 라이트는 제미나이 2.5 플래시(Gemini 2.5 Flash) 대비 ‘첫 답변 토큰(time to first answer token)’이 2.5배 빠르다. 또한 출력 생성 속도는 45% 더 빠르면서도 품질은 ‘유사하거나 더 낫다’고 설명했다.

대화형 서비스에서 체감 속도를 좌우하는 첫 토큰 지연과, 길게 생성되는 응답의 처리량을 동시에 개선했다는 점이 핵심이다.

경량 모델 경쟁에서도 존재감…Elo 1432, GPQA·MMMU 성적 공개

경쟁 경량 모델과의 비교를 의식한 지표도 제시했다. Google에 따르면 3.1 플래시 라이트는 Arena AI 리더보드에서 Elo 점수 1432를 기록했고, 추론 성능 지표로 자주 언급되는 GPQA 다이아몬드(GPQA Diamond)에서 86.9%, 멀티모달 성능을 보는 MMMU 프로(MMMU Pro)에서 76.8%를 기록했다.

[경제분석] '엔화 방어'의 한계점이 다가온다… 일본의 美 국채 매도가 흔드는 글로벌 금융 시스템

알파리포트 전문 보기 →

기업 입장에서는 단순히 ‘저렴한 모델’이 아니라, 운영 환경에서 일정 수준 이상의 품질을 유지하는지 여부가 중요한 만큼, 이번 수치 공개는 도입 장벽을 낮추는 메시지로 해석된다.

번역·모더레이션 등 고빈도 업무부터 UI 생성까지…‘생각 수준’ 조절 기능도

Google은 3.1 플래시 라이트가 번역, 콘텐츠 모더레이션, 대규모 지시 이행(instruction following) 같은 고빈도 개발 업무를 염두에 두고 설계됐다고 밝혔다. 동시에 인터페이스 생성, 시뮬레이션 제작, 구조화 데이터 처리 등 더 복잡한 워크로드도 지원한다고 덧붙였다.

이번 공개와 함께 AI 스튜디오와 버텍스 AI에서는 ‘조절 가능한 생각(thinking) 수준’ 기능도 도입된다. 개발자가 작업 난도에 따라 모델이 수행하는 추론량을 조절해 비용, 속도, 정확도의 균형점을 맞출 수 있도록 한 것이다.

시장에서는 생성형 AI가 본격적으로 ‘실험 단계’를 지나 운영 단계로 들어서면서, 모델 성능만큼이나 단위 비용과 지연 시간을 줄이는 기술 경쟁이 격화하고 있다는 점에 주목한다. Google의 제미나이 3.1 플래시 라이트 출시는 이런 흐름 속에서, 대량 트래픽 환경에 특화된 ‘고속·저비용’ 모델을 전면에 내세운 움직임으로 평가된다.

◆ ‘속도·비용’ 경쟁 시대…AI 도입의 승패는 ‘구현력’에서 갈립니다

Gemini 3.1 Flash Lite처럼 지연 시간(latency)과 추론 비용을 낮춘 경량 모델이 쏟아지는 지금, 기업과 개발자에게 중요한 건 “어떤 모델이 더 싸고 빠른가”를 넘어 어떤 구조로 운영하고, 어떤 기준으로 성능·비용·리스크를 통제할 것인가입니다.

입력/출력 토큰 단가, 대량 트래픽 처리, ‘thinking’ 수준 조절까지… 이제 생성형 AI도 크립토 시장처럼 지표를 읽고(데이터), 구조를 이해하고(원리), 전략으로 운영하는(실행) 팀이 이깁니다.

이런 ‘운영 단계’의 싸움에서 흔들리지 않으려면, 유행이 아니라 기초→분석→전략→실전으로 이어지는 체계가 필요합니다.

대한민국 1등 블록체인 미디어 토큰포스트가 론칭한 토큰포스트 아카데미는 시장의 속도 경쟁 속에서도 끝까지 살아남는 투자자/실행가를 위한 7단계 마스터클래스 커리큘럼을 제공합니다.