오픈AI, GPT-5 공개… AGI 시대 향한 '생각하는 AI' 온다

| 김민준 기자

오픈AI(OpenAI)가 차세대 인공지능 모델 GPT-5를 공식 발표하며 생성형 AI 경쟁에 다시 한 번 불을 지폈다. GPT-5는 이전 버전인 GPT-4o를 뛰어넘는 지능 성능을 갖춘 것으로 평가되며, 특히 코딩, 리포트 작성 및 복잡한 문제해결 영역에서 두드러진 업그레이드를 이루었다.

샘 알트먼(Sam Altman) 오픈AI CEO는 이번 발표에서 “GPT-3가 고등학생과 대화하는 수준이었다면 GPT-5는 그와는 차원이 다르다”고 강조했다. 그는 GPT-5가 범용 인공지능(AGI)으로 가는 여정에서 중요한 진전을 의미한다고 덧붙였다.

GPT-5는 ‘하이브리드 시스템’ 구조로 설계되어, 간단한 질문에는 빠르고 정확한 정답을 제공하는 일반 모델을 통해 답하고, 복잡한 요청에는 추론이 가능한 ‘생각하는 모델’을 활용한다. 사용자는 명령어를 통해 추론 모드를 직접 활성화할 수도 있고 자동 전환 기능을 사용할 수도 있다.

실제 성능 지표에서는 GPT-5의 도약이 두드러진다. 수학 영역에서는 AIME 2025 시험에서 도구 없이 94.6%의 정확도를 기록했으며, 코딩 평가에서는 SWE-bench 검증에서 74.9%, Aider Polyglot에서 88%를 기록했다. 멀티모달 인식력은 MMMU 점수 84.2%, 헬스케어 분야의 HealthBench Hard 평가에서는 46.2%로 이전 모델들을 크게 앞섰다.

경쟁사들과 비교해도 GPT-5의 우위는 확실하다. 앤트로픽(Anthropic)의 클로드 오퍼스 4.1은 코딩 정확도에서 약간 낮은 74.5%를 기록했고, 구글(GOOGL)의 제미니 2.5 프로는 59.6%에 그쳤다. 오픈AI는 GPT-5가 실제 사용 환경에서도 이러한 성능을 재현하고 있다고 밝혔다.

이번 모델은 ‘환각 문제(hallucination)’ 개선에도 초점을 맞췄다. 오픈AI에 따르면 웹 검색 기능이 활성화된 GPT-5는 GPT-4o보다 약 45% 적은 오류를 발생시켰으며, 추론 모드까지 포함하면 오류 확률은 약 80%까지 감소한다. 또한 이전 모델에서 논란이 되었던 ‘과도한 동조(sycophancy)’ 현상도 크게 완화됐다.

특히 주목할 점은 GPT-5가 ‘에이전틱 코딩(agentic coding)’을 위한 최적의 뇌로 설계됐다는 점이다. 커서(Cursor), 윈드서프(Windsurf), 깃허브 코파일럿(GitHub Copilot), CodexCLI와 같은 개발자 에이전트 도구들을 위해 GPT-5는 코드 생성, 버그 수정, 다중 작업 진행까지 수행할 수 있는 성능을 보여준다. 사용자의 의도를 자연어로 이해하고, 단계적으로 문제를 해결해 나가는 능력이 비약적으로 향상됐다는 평가다.

오픈AI 연구진은 GPT-5를 통해 개발자들이 기존보다 훨씬 직관적인 방식으로 ‘바이브 코딩(vibe coding)’을 구현할 수 있다고 설명했다. 일일이 코드를 타이핑하지 않고 자연어로 프로그램을 조정하는 개발 패러다임이 본격화되고 있는 것이다.

GPT-5는 기본형 외에도 비용과 응답 시간, 추론 단계에 따라 GPT-5-mini와 GPT-5-nano 버전으로 분화돼 API 형태로 제공된다. 툴 호출 문장 설정, 응답 조절, 정규표현식 기반 출력 제어 등 개발자 친화 기능도 한층 강화됐다.

오픈AI는 GPT-5를 ChatGPT 사용자에게 기본 모델로 제공하기 시작했으며, 유료 사용자에게는 자율적 모드 전환 외에도 수동으로 추론 모드를 사용할 수 있는 기능을 추가했다. 새로운 기능과 지향점은 GPT-5가 단순한 언어모델을 넘어 코딩과 콘텐츠 제작의 핵심 동력으로 자리매김하려는 오픈AI의 명확한 전략을 보여준다.