클로드(Chatbot Claude) 시리즈로 급성장 중인 AI 스타트업 앤트로픽(Anthropic)이 최신 대형 언어 모델 '소넷 4.5(Sonnet 4.5)'를 공개하며 또 한 번 기술력을 과시했다. 앤트로픽은 이번 모델이 세계 최고 수준의 코딩 특화 모델이라며, 다양한 퍼포먼스 지표에서 신기록을 세웠다고 밝혔다. 특히 단일 모델이 SWE-Bench Verified와 OSWorld 벤치마크에서 연이어 최고 점수를 기록한 것은 이번이 처음이다.
소넷 4.5는 기존 소넷 4에서 성능을 크게 끌어올리며 복잡한 질의에는 연산 능력을 극대화해 정교한 답변을 제공하는 하이브리드 추론 구조를 채택했다. 간단한 질문에는 빠르고 경제적인 응답이 가능하지만, 보다 복잡한 문제에는 고도 연산을 허용함으로써 품질 우위를 확보하는 방식이다. 앤트로픽은 이 모델이 SWE-Bench Verified에서 82% 정확도를 기록해 역대 최고치를 경신했다고 밝혔다. 기존 최고 기록 역시 앤트로픽의 이전 모델들이 보유하고 있었으며, GPT-5 코덱스(Codex)가 그 뒤를 이었다.
외부 도구 연동 능력을 평가하는 OSWorld 벤치마크에서도 소넷 4.5는 61.4%라는 기록적인 점수를 획득했다. 이는 불과 4개월 전 출시된 소넷 4보다 20% 가까이 개선된 수치다. 앤트로픽은 이 외에도 그래프 해석, 재무 데이터 분석 등 다양한 테스트에서 자사 경쟁사들을 상회했다고 전했다.
소넷 4.5는 현재 앤트로픽의 챗봇 서비스 '클로드(Chatbot Claude)'와 프로그래밍 도우미 '클로드 코드(Claude Code)', 그리고 API(응용 프로그램 인터페이스) 등을 통해 제공된다. 특히 클로드 코드는 이번 모델 출시와 함께 대대적인 사용자 인터페이스 개편도 단행했다.
개선된 기능 중 하나는 코드 변경 이력을 자동으로 저장하는 기능이다. 덕분에 오류 발생 시 사용자는 이전의 안정적인 코드 상태로 되돌릴 수 있다. 또한, 현업 개발자들이 애용하는 통합 개발 환경인 ‘VS 코드(VS Code)’과의 연동도 지원되며 현재 베타 버전으로 제공되고 있다.
이번 공개와 함께 앤트로픽은 새로운 개발 툴킷 ‘클로드 에이전트 SDK’를 선보였다. 원래는 클로드 코드 서비스를 구동하기 위해 내재적으로 개발된 툴킷이지만, 이제 외부 개발자도 이를 활용해 독자적인 AI 에이전트를 생성할 수 있다. 이 툴킷은 단일 작업 단위가 아닌 하위 에이전트 간 병렬처리를 지원하고, 외부 시스템과의 상호작용 기능도 대폭 강화됐다. 또한 에이전트가 생성한 응답의 정확도를 검토할 수 있는 기능도 포함돼, 이른바 ’환각(hallucination)’ 현상을 크게 줄인다는 설명이다.
이와 함께 제공되는 ‘클로드 API’에는 소넷 4.5 외에도 AI 모델이 전용 메모리 디렉토리에 접근할 수 있는 기능이 새로 추가됐다. 이를 통해 작업 시 참고할 정보를 불러오거나, 필요 없어진 정보를 제거하는 관리 기능이 지원된다. 앤트로픽은 이 같은 확장이 복잡한 시나리오를 처리하는 데 큰 역할을 할 것이라고 강조했다.
이번 발표는 앤트로픽이 코딩 특화와 멀티 에이전트 아키텍처 분야에서 빠르게 입지를 넓히고 있음을 알리는 신호탄이라는 평가 속에 크게 주목받고 있다. AI 기술이 단순 응답 생성에서 유연한 도구 사용과 소프트웨어 개발 지원으로 진화하는 흐름 속에서, 앤트로픽의 행보는 경쟁사에게도 적잖은 압박이 될 것으로 보인다.