오픈AI, 수학·코딩 강화한 GPT-5.5 공개…클로드와 벤치마크 경쟁 재점화

2026년 4월 25일 20:56:28 | 손정환 기자

오픈AI가 수학 문제 풀이와 코드 작성 능력을 대폭 강화한 새 대형언어모델 ‘GPT-5.5’를 공개했다. 경쟁사 앤트로픽이 최신 모델을 내놓은 지 일주일 만에 맞대응에 나선 것으로, 성능 경쟁이 다시 한층 뜨거워지는 분위기다.

이번에 출시된 모델은 ‘GPT-5.5’ 일반 버전과 상위 모델인 ‘GPT-5.5 Pro’ 두 가지다. 오픈AI는 일반 버전이 컴퓨터 활용 업무와 지식 노동 전반에서 이전 모델보다 개선됐다고 설명했다. GPT-5.5 Pro는 기업, 법률, 교육, 데이터 과학 분야에서 특히 더 큰 품질 향상을 보인다고 밝혔다.

오픈AI가 강조한 변화 중 하나는 ‘애매한 지시’에 대한 해석 능력이다. 그동안 대형언어모델은 사용자가 작업 단계를 세세하게 적지 않으면 오류를 내는 경우가 많았다. 반면 GPT-5.5는 사용자가 충분한 설명을 하지 않아도 MCP 서버 활용 방식 같은 세부 절차를 스스로 추론할 수 있다고 회사는 설명했다.

앤트로픽 최신 모델과 벤치마크 대결

오픈AI는 GPT-5.5를 앤트로픽의 ‘클로드 오퍼스 4.7’과 12개가 넘는 벤치마크에서 비교했다. 그 결과 일반 버전과 Pro 버전 모두 여러 테스트에서 우세한 성능을 보였다고 밝혔다.

가장 눈에 띄는 수치는 고난도 수학 벤치마크인 ‘프런티어매스 티어 4’다. 이 평가는 박사후연구원 수준의 문제 수십 개로 구성되며, 인간 전문가도 풀이에 수일이 걸릴 수 있는 것으로 알려져 있다. 여기서 GPT-5.5 Pro는 39.6%를 기록해 클로드 오퍼스 4.7의 22.9%를 크게 앞섰다.

오픈AI는 GPT-5.5를 맞춤형으로 활용한 연구 과정에서 새로운 수학 증명도 발견했다고 밝혔다. 해당 증명은 조합론의 핵심 주제 중 하나인 ‘램지 수’와 관련된 내용이다. 램지 수 연구는 순수수학을 넘어 컴퓨터 과학 전반에도 폭넓게 연결되는 분야로 평가된다.

코딩과 인프라 최적화에서도 개선

프로그래밍 성능도 주요 개선 지점으로 제시됐다. 명령줄 도구 사용 능력을 평가하는 ‘터미널-벤치 2.0’에서 GPT-5.5 일반 버전은 82.7%를 기록했다. 같은 항목에서 클로드 오퍼스 4.7은 69.4%였다.

오픈AI는 GPT-5.5의 코딩 성능을 내부 운영에도 이미 적용했다고 밝혔다. 이 모델은 자사 인프라 관리 소프트웨어를 최적화하는 데 활용됐고, 그 결과 토큰 생성 속도가 20% 넘게 빨라졌다고 설명했다.

오픈AI의 인프라는 엔비디아($NVDA)의 GB200, GB300 NVL72 시스템을 기반으로 운영된다. 해당 장비에는 각각 블랙웰 B200, 블랙웰 울트라 GPU가 탑재된다. 회사에 따르면 GPT-5.5는 GPU에 들어오는 요청을 묶고 코어에 분산하는 방식을 더 효율적으로 설계해 처리 속도를 높였다.

일반 업무 활용성도 확대

기술 중심 작업뿐 아니라 경제적 가치가 있는 일반 업무 처리에서도 개선이 확인됐다. 44개 분야의 실무형 과제를 평가하는 ‘GDPval’ 벤치마크에서 GPT-5.5 일반 버전은 84.9%를 기록해 GPT-5.5 Pro와 클로드 오퍼스 4.7 모두를 앞섰다.

이는 오픈AI가 이번 모델을 단순한 ‘코딩 특화’가 아니라 범용 업무 생산성을 높이는 도구로 포지셔닝하고 있음을 보여준다. 특히 기업용 활용 사례가 늘어나는 상황에서 법률 문서 검토, 데이터 분석, 교육용 보조 업무 같은 영역에서 도입이 빨라질 가능성이 거론된다.

ChatGPT·Codex에 우선 적용

GPT-5.5는 현재 챗GPT와 코덱스에서 플러스, 프로, 비즈니스, 엔터프라이즈 구독자를 대상으로 제공된다. GPT-5.5 Pro는 이 가운데 프로, 비즈니스, 엔터프라이즈 요금제에서만 챗GPT를 통해 사용할 수 있다. 오픈AI는 애플리케이션 프로그래밍 인터페이스(API)에도 ‘매우 곧’ 적용할 예정이라고 밝혔다.

이번 출시로 오픈AI와 앤트로픽의 대형언어모델 경쟁은 성능 수치뿐 아니라 실제 업무 적용성, 운영 효율, 기업 시장 장악력으로까지 확대되는 흐름이다. 특히 수학과 코딩, 실무 작업을 동시에 강화한 점은 AI 모델 경쟁의 기준이 이제 ‘대화 품질’에서 ‘현장 생산성’으로 옮겨가고 있다는 신호로 읽힌다.

TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.

본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.