구글(GOOG)이 오늘 선보인 새로운 추론 모델인 Gemini 3.1 Pro는 여러 벤치마크에서 클로드 4.6 오푸스와 GPT-5.2를 능가하는 성능을 보여 주목받고 있다. 이 알고리즘은 구글의 다양한 제품을 통해 제공되며, 사용자는 1백만 개의 토큰 데이터를 입력할 수 있고, 이 데이터에는 텍스트뿐만 아니라 비디오와 같은 멀티모달 파일도 포함된다. Gemini 3.1 Pro는 최종 답변 시 최대 64,000개의 토큰을 생성할 수 있다.
구글은 이 모델의 추론 능력을 시장에서 가장 까다로운 인공지능 벤치마크 중 하나인 ARC-AGI-2로 평가했다. 이 벤치마크는 다양한 모양의 시각적 퍼즐로 구성되어 있어, 패턴을 추론해 새로운 모양을 생성해야 한다. Gemini 3.1 Pro는 77.1%의 ARC-AGI-2 점수를 기록하며 GPT-5.2보다 24%가량 높은 성과를 거뒀다. 또, 안스로픽의 클로드 오푸스 4.6을 9% 넘게 앞섰다.
Gemini 3.1 Pro는 MCP Atlas와 Terminal-Bench 2.0 코드 테스트를 포함하는 여러 벤치마크에서도 기록을 세웠다. 과학적 프로그래밍 작업을 포함하는 SciCode에서도 클로드 오푸스 4.6보다 7% 더 우수한 성능을 보였다. 한편, 이 모델은 지구의 궤도를 HTML로 시각화하는 데 사용되었으며, 실시간 국제우주정거장(ISS)의 위치를 보여주는 대시보드를 제공하기도 했다. 새로운 웹사이트를 생성하는 데에도 뛰어난 능력을 발휘하며, 기존 모델보다 웹 프로젝트에 적합한 SVG 파일을 생성하는 데 더 능숙한 모습을 보여 줬다.
현재, Gemini 3.1 Pro는 구글의 여러 개발 도구에서 프리뷰 형식으로 제공되고 있으며, 일반 소비자는 Gemini 앱과 NotebookLM에서 접근할 수 있다. 구글은 이 모델을 자사 AI 클라우드 서비스인 Vertex AI 제품군에도 포함할 계획이다. 구글은 또한 이 모델의 "업그레이드된 핵심 지능"이 Gemini 3 딥 씽크에서 처음 도입되었다고 밝혔다. 이 업그레이드 버전은 초기 사용자들이 수학 논문의 결함을 식별하고 새로운 반도체 구조를 제조하는 데 도움을 주고 있다.
<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>