PinchBench 벤치마크, Gemini 3 Flash OpenClaw 작업 성공률 95.1%로 1위

2026년 3월 08일 12:40:32 | 토큰포스트 속보

보안업체 慢霧(SlowMist) CISO 23pads가 X를 통해 AI 대형 언어모델 벤치마크 결과를 공유했다. PinchBench 기준 테스트에 따르면 에이전트 과제 세트인 OpenClaw 작업 수행 능력을 평가한 결과, Gemini 3 Flash의 작업 성공률이 95.1%로 가장 높게 나타났다.

이어 minimax-m2.1이 93.6%, kimi-k2.5가 93.4%로 2·3위를 기록했으며, Claude Sonnet 4.5는 92.7%, GPT-4o는 85.2% 성공률을 보였다. 이번 평가는 여러 주요 LLM의 에이전트·자동화 작업 수행 능력을 비교한 결과라는 설명이다.

본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.

많이 본 기사

[사설] 비트코인 하락장, 공포가 사실을 앞질렀다

리플, 규제 압력 속 1.05달러 등락…캘리포니아·EU·호주 규제 동시 진압

비트코인, 6만달러 재돌파 실패…7월 초에도 약세 이어지나

리플·코인베이스 등, 2026년 미국 중간선거에 1억8900만달러 기부

UBS “워시 첫 FOMC 매파적…연내 금리 인상 전망은 과도”

지금 꼭 알아야 할 리포트

[온체인분석] 토큰화 증권 시대, 거래소의 경쟁자는 거래소가 아닐 수 있다

[온체인분석] 디파이의 AMM, 주식시장에 들어오면 거래비용을 절반까지 낮출 수 있을까

BIS “스테이블코인 전송을 결제로 보면 시장을 잘못 읽는다”