오픈AI가 야심차게 선보인 차세대 언어모델 GPT-5의 공개가 예상과 달리 불안정한 출발을 보이며 시장의 기대에 미치지 못하고 있다. 공개 시연 중 부정확한 차트, 음성 데모 오류 등 기술적 결함이 지적된 데 이어, 실제 사용 사례에서도 수학, 논리 문제 해결 능력이 GPT-4나 경쟁사의 모델들보다 오히려 떨어지는 사례가 속속 보고되고 있다. 일부 사용자는 GPT-5가 초등학생 수준의 문제조차 실수하는 등, 전작 대비 성능 저하를 체감하고 있다는 반응을 쏟아내고 있다.
데이터 과학자 콜린 프레이저는 GPT-5가 단순한 수학 증명을 잘못 이해하는 장면을 공개하며 “이 모델이 정말 지능적인지 의심스럽다”는 평가를 남겼다. 실제로 5.9 = x + 5.11이라는 기본적인 산술 문제조차 정확히 풀지 못했으며, 라이브 데모에서도 보조 모드 설정이 혼란을 야기하면서 사용자 불만을 키웠다. 모델 내부에서 문제 난이도에 따라 자동으로 ‘사고 모드’를 켜는 라우팅 기능이 주요 특징으로 소개됐지만, 이 기능이 오작동하면서 어느 모드에서 답변이 생성되고 있는지조차 애매하다는 지적이 잇따르고 있다.
더욱이 GPT-5는 기존 코딩 성능 벤치마크에서 높은 점수를 받았음에도, 실제 응용 사례에서는 앤트로픽의 Claude Opus 4.1 같은 경쟁 모델에 비해 반복 작업 처리나 사용자 요구에 대한 일회성 응답(One-shot response) 역량에서 밀리는 모습을 보이고 있다. 한 개발자는 Claude의 모델이 “3D 카피바라 동물원을 단 8분 만에 완성했다”고 사례를 공유하며 GPT-5와의 체감 격차를 부각시켰다.
일부 고급 사용자들 사이에서는 오히려 오픈AI가 GPT-4o, o3 등의 이전 모델을 일반 사용자용으로 점차 폐쇄하고 있는 것에 대한 불만도 커지고 있다. 이러한 모델들은 여전히 API를 통해 기업 개발자에겐 제공되지만, 일반 사용자 입장에서는 전환기의 혼란이 크다는 평가다. 특히 보안 기업 SPLX는 GPT-5 내부 안전장치가 프롬프트 주입(prompt injection) 같은 공격에 취약하며, 비즈니스 맞춤화에도 취약점을 보인다고 경고했다.
AI 커뮤니티 내 분위기도 온도차가 뚜렷하다. 전 구글 출신으로 현재 AI 인플루언서로 활동 중인 빌라왈 시두는 X(전 트위터)를 통해 GPT-5의 ‘분위기 점검’ 투표를 진행했고, 참가자의 대다수가 “그저 그렇다(Kinda mid)”는 반응을 보였다. AI 유출 전문 계정인 AI Leaks and News도 “GPT-5에 대한 초기 여론은 Reddit과 X 모두에서 부정적으로 기운다”는 평을 덧붙였다.
GPT-5가 기대에 못 미친 반면, 경쟁사들은 급속히 추격해오고 있다. 알리바바 Qwen 팀은 최근 자사 Qwen 3 모델의 맥락 창 크기(context length)를 100만 토큰으로 확장하며 GPT-5를 압도하는 수준으로 진화했다. 이는 사용자가 모델과 한 세션 내 주고받을 수 있는 정보량이 GPT-5에 비해 4배 이상 많다는 의미로, 대규모 협업이나 복합 질의 응답에 있어 선명한 차별점을 형성하고 있다.
여기에 더해 오픈AI가 공개한 새로운 오픈소스 모델 gpt-oss 역시 초기 사용자의 반응을 극명하게 갈라놓고 있다. 일부는 환영했지만, 기존 ChatGPT 사용자 7억 명 규모의 주류 시장에서는 GPT-5의 실망스러운 출발이 브랜드 신뢰도에 손상을 입힌 모양새다. 실제로 예측 시장인 폴리마켓(Polymarket)에서는 사용자들이 향후 AI 성능 1위를 누가 차지할지를 두고 구글에 무게를 두고 베팅하는 흐름까지 나타나고 있다.
그럼에도 GPT-5를 옹호하는 전문가들도 있다. Otherside AI의 CEO 매트 슈머는 GPT-5의 진가가 아직 실현되지 않았다고 주장하며 “팬 기반으로 구성된 AI 에이전트들이 GPT-5에 최적화되지 않은 상태에서 이 모델을 평가하는 건 섣부른 판단일 수 있다”고 지적했다. 그는 대부분 기업들이 새로운 모델을 시스템에 완전히 통합하고 최적화하는 데 일정 시간이 필요하다고도 덧붙였다.
한편 오픈AI는 여전히 높은 연구 개발 비용으로 인해 수익성 면에서는 적자 구조를 벗어나지 못하고 있다. 이를 감안하면 GPT-5의 이번 불완전한 론칭은 단순한 기술적 이슈를 넘어 회사의 사업 모델과 미래 성장 전략에도 부담으로 작용할 수 있다는 우려가 나온다. 첫인상이 모호하고 반응이 부정적으로 흘러가는 가운데, 향후 사용자 피드백을 바탕으로 얼마나 빠르게 개선할 수 있을지가 향후 GPT-5의 성패를 좌우할 전망이다.