오픈AI가 2025년 8월 8일 공개한 차세대 인공지능(AI) 언어 모델 GPT-5가 대학수학능력시험(수능) 전 과목을 실제 수험생과 유사한 조건으로 풀어본 결과, 일부 영역에서는 최상위 등급에 해당하는 성적을 기록한 것으로 나타났다.
이번 평가에서 GPT-5는 국어, 수학, 영어 세 과목의 문항을 모두 입력받아 답안을 도출했다. 채점 결과 국어는 95점, 수학은 82점, 영어는 92점을 기록하며 실제 수능 기준으로 보면 국어와 영어는 1등급, 수학은 2등급 수준에 해당하는 성적이다. 특히 국어와 영어는 최소 1등급 커트라인을 간신히 넘는 점수를 받아, 전국 상위권 대학 진학이 가능한 수준으로 평가됐다.
GPT-5가 이전 세대 모델과 비교해 가장 큰 성능 향상을 보여준 영역은 수학 계산 능력이었다. 미적분 과목의 전 문항을 이미지 형태로 제시했음에도, 대부분의 문항에서 1~2초 내로 답을 산출하고, 고난도 문제인 29번과 30번 문항 중 하나는 풀이 과정까지 정확히 제시해내는 등 계산 처리능력에서 확연한 개선을 입증했다. 수식 표현에는 과학·수학 분야에서 일반적으로 사용되는 ‘라텍스(LaTeX)’ 형식을 활용해 사람이 이해할 수 있을 정도로 깔끔한 출력을 제공했다.
반면 GPT-5는 구조적 추론이나 시각 정보 해석이 필요한 문항에서는 여전히 한계를 드러냈다. 국어에서는 현대문학 간 비교 문제나 고전 시가의 언어 표현 해석에서 오답률이 높았고, 영어에서도 문장의 순서를 배열해야 하는 문항에서 반복적으로 오답을 제시했다. 또한 탐구 영역에서는 사회문화, 윤리·사상 등 인문 기반 과목에서는 강세를 보였지만, 도표 해석이 요구되는 물리나 화학 과목에서는 쉬운 문제도 잇따라 틀린 것으로 나타났다.
한 국내 인공지능 기술업체 관계자는 GPT-5의 성능 개선에 긍정적 반응을 보이면서도, “이전보다 긴 문장에 대한 처리 능력은 안정적이지만, 이미지 기반 문제 해결 능력은 아직 제한적”이라며 “최근 구글이 내놓은 ‘지니3’처럼 근본적인 인공지능 패러다임 전환까지는 이르지 못했다”고 지적했다.
이번 GPT-5의 수능 성적은 언어 기반 인공지능이 교육 평가 영역에서도 사람에 필적할 정도의 성취를 거둘 수 있음을 보여주는 사례로, 향후 인공지능을 활용한 학습 보조 도구나 자동 첨삭 기술이 더욱 고도화될 가능성을 시사하고 있다. 다만 시각 정보 처리나 종합적 추론과 같은 복합적 인지 능력 부문에서는 여전히 개선 여지가 확인돼, 완전한 인간 대체는 시간이 더 필요할 것으로 보인다.