GPT-5, 기대 깨고 '성능 논란'…알트먼 결국 기존 모델 복원

| 김민준 기자

샘 알트먼(Sam Altman) 최고경영자(CEO)가 OpenAI의 최신 모델 GPT-5 출시와 관련해 예상치 못한 문제점을 인정하고 기존 모델들을 다시 도입했다. 8일(현지시간) 알트먼은 레딧 AMA(Ask Me Anything)와 X(구 트위터)를 통해 GPT-5의 첫 공개가 “예상보다 더 삐걱거렸다”고 솔직하게 밝혔다. 실제 사용자들이 제기한 성능 저하와 혼란스러운 모델 전환 이슈로 인해 OpenAI는 한발 물러서 GPT-4o 등 이전 모델에 대한 접근 권한을 일부 복원했다.

GPT-5는 OpenAI가 야심 차게 공개한 최신 대형 언어 모델로, 동시 다중 작업과 추론 능력 강화 등을 앞세워 기대를 모았다. 하지만 출시 당일부터 사용자들은 수학 문제 오류, 논리적 추론 실패, 코드 생성 삑사리 등 다양한 문제를 경험했다. 특히 다양한 버전의 GPT-5 모델 중 적절한 모델을 자동으로 배정하는 ‘라우터’ 시스템의 이상이 문제를 키웠다는 분석이 나왔다. 알트먼은 자동 스위칭 기능이 일정 시간 동안 중단되면서 “GPT-5가 기대 이하의 성능을 보였다”고 시인했다.

이에 대응해 OpenAI는 새로 도입된 모델 선택 시스템의 경계 조건을 조정 중이며, 어떤 모델이 답변에 사용됐는지 명확하게 표시하는 UI 개편을 예고했다. 추가로, 고난도 연산이나 복잡한 논리 추론을 도울 수 있는 ‘생각 모드(thinking mode)’를 사용자가 직접 활성화할 수 있도록 인터페이스도 개선할 예정이다.

이런 혼란을 계기로, ChatGPT 유료 이용자인 Plus 사용자들에게는 GPT-5와 GPT-4o 사이의 선택권이 다시 부여됐다. 알트먼은 “사용자 데이터를 더 수집한 뒤 기존 모델을 얼마나 오래 유지할지 결정하겠다”고 밝혔다.

하지만 사용자들의 실망은 쉽게 가라앉지 않고 있다. 와튼스쿨 교수이자 OpenAI 기술 테스터인 이선 몰릭(Ethan Mollick)은 “기존 모델을 아무 예고 없이 비활성화했다가 다시 꺼내는 식은 혼란만 가중시킨다”고 지적했고, 일부 개발자들 역시 경쟁 모델인 앤트로픽(Anthropic)의 클로드 오퍼스 4.1에 비해 GPT-5의 일관성과 정확성이 부족하다고 평했다.

OpenAI의 리더십 아래 GPT-5는 내부 벤치마크 테스트에서는 긍정적인 결과를 보였지만, 실제 환경에서는 오히려 과장된 성능 기대를 충족시키지 못한 것으로 드러났다. 보안 기업 SPLX는 GPT-5가 여전히 프롬프트 인젝션(입력 조작 공격)과 논리 위장 공격에 취약하다는 평가도 내놓았다.

OpenAI는 세계 최대 규모의 생성형 AI 서비스인 ChatGPT를 중심으로 매주 7억 명가량의 사용자를 보유 중이다. 이번 GPT-5 공개 후 하루 만에 API 트래픽이 2배 이상 급증하며 서버 부하가 발생한 상황에서, 전체 인프라를 안정화하는 작업도 병행되고 있다. 이와 관련해 Plus 사용자에 대해서는 사용할 수 있는 토큰 수를 2배로 늘리는 조치도 적용 중이다.

GPT-5가 단순한 업그레이드가 아닌 진정한 기술적 도약이라는 점을 입증하기 위해, OpenAI는 앞으로 사용자 피드백을 기반으로 지속적인 개선을 이어가야 한다는 압박을 안게 됐다. 현재까지의 반응으로는 많은 이들이 신뢰 회복을 위해 시간이 더 필요하다고 느끼고 있다.