PinchBench 벤치마크, Gemini 3 Flash OpenClaw 작업 성공률 95.1%로 1위

| 토큰포스트 속보

보안업체 慢霧(SlowMist) CISO 23pads가 X를 통해 AI 대형 언어모델 벤치마크 결과를 공유했다. PinchBench 기준 테스트에 따르면 에이전트 과제 세트인 OpenClaw 작업 수행 능력을 평가한 결과, Gemini 3 Flash의 작업 성공률이 95.1%로 가장 높게 나타났다.

이어 minimax-m2.1이 93.6%, kimi-k2.5가 93.4%로 2·3위를 기록했으며, Claude Sonnet 4.5는 92.7%, GPT-4o는 85.2% 성공률을 보였다. 이번 평가는 여러 주요 LLM의 에이전트·자동화 작업 수행 능력을 비교한 결과라는 설명이다.

본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.