보안업체 慢霧(SlowMist) CISO 23pads가 X를 통해 AI 대형 언어모델 벤치마크 결과를 공유했다. PinchBench 기준 테스트에 따르면 에이전트 과제 세트인 OpenClaw 작업 수행 능력을 평가한 결과, Gemini 3 Flash의 작업 성공률이 95.1%로 가장 높게 나타났다.
이어 minimax-m2.1이 93.6%, kimi-k2.5가 93.4%로 2·3위를 기록했으며, Claude Sonnet 4.5는 92.7%, GPT-4o는 85.2% 성공률을 보였다. 이번 평가는 여러 주요 LLM의 에이전트·자동화 작업 수행 능력을 비교한 결과라는 설명이다.





