애플, AGI '착각' 경고…“추론하는 인공지능 아직 멀었다”

| 김민준 기자

애플 연구진이 최근 발표한 보고서를 통해 인공지능 분야의 궁극적 목표인 범용인공지능(AGI)의 도달까지는 아직 갈 길이 멀다고 진단했다. 최신 대형 언어 모델들이 *추론* 능력을 갖췄다고 평가받고 있지만, 실제로는 복잡한 문제 해결에서 제한적인 성능을 보이고 있다는 분석이다.

이번 보고서는 애플이 지난 6월 공개한 논문 ‘사고의 착각(The Illusion of Thinking)’에서 제시됐다. 연구진은 오픈AI의 ‘챗GPT’를 비롯해 앤스로픽의 ‘클로드’, 디입식(DeepSeek)의 R1·V3 모델 등 주요 인공지능을 실험 대상으로 삼았다. 모델들은 최근 ‘대규모 추론 모델(LRM)’을 도입해 인간 수준의 추론 능력에 근접하고 있다는 기대를 받고 있으나, 이들의 실제 능력과 한계, 확장성은 아직 충분히 이해되지 않았다는 지적이다.

기존의 AI 성능 평가는 주로 수학 계산이나 코드 작성 같은 ‘정확한 정답’을 요구하는 정형화된 기준에 맞춰 진행됐다. 하지만 이번 실험에서는 퍼즐 게임 등 비정형 문제를 활용해 AI의 실질적인 *사고* 능력을 검증했다. 그 결과, 고도화된 LRM들조차 복잡성이 일정 수준을 넘어서면 정확도가 완전히 무너졌고, 추론의 일반화 능력은 제한적이었다. 예상과 달리 복잡도가 높아질수록 모델 간 성능 격차는 사라졌으며, 이는 AGI 도달 가능성에 의문을 제기하는 결과다.

애플 연구진은 “LRM은 정확한 계산에서 확실한 한계를 보인다”며, “명시적인 알고리즘을 사용하지 못하고, 퍼즐 간 추론도 일관되지 못했다”고 분석했다. 이는 앤스로픽 CEO가 제시한 ‘2026년 AGI 실현’ 전망과도 대비된다.

AGI가 수년 내 현실화될 것이란 낙관적 예측이 최근 늘고 있지만, 애플의 이번 연구는 그 기대에 균형을 제시하는 결과물이다. 인공지능이 단순한 정답 맞히기가 아닌, 진정한 의미의 *사고*와 *추론*을 구현하기까지는 여전히 많은 기술적 난제가 남아 있음을 보여준다.