애플(AAPL)의 머신러닝 연구팀이 최근 공개한 논문이 AI 업계 전반에 뜨거운 논쟁을 불러일으키고 있다. 문제의 논문은 이른바 ‘사고하는 AI 모델’로 주목받은 추론 기반 대형언어모델(reasoning LLM)에 회의적인 시각을 던지며, 이들 모델이 독립적 추론을 수행하기보단 단순한 패턴 매칭에 의존하고 있다고 주장했다. 하지만 곧이어 반박 논문이 등장하면서 논점을 둘러싼 양측의 의견 충돌이 본격화되고 있다.
애플이 발표한 ‘사고의 환상(The Illusion of Thinking)’은 오픈AI의 오 시리즈, 구글(GOOGL)의 제미니 2.5 프로 등 대표적인 추론 LLM들을 대상으로 퍼즐 방식의 계획 문제를 해결하도록 테스트하고, 일정 수준 이상의 복잡도가 주어지면 정확도가 급격히 하락하는 경향을 발견했다. 모델 설명력 추적을 위한 토큰 수 역시 줄어드는 패턴이 나타나면서, 연구진은 이들 모델이 복잡성이 증가한 상황에선 사실상 문제 해결을 포기한다고 해석했다.
그러나 이 연구 결과는 즉시 AI 학계에서 거센 반발을 불러왔다. 안트로픽의 클로드 오푸스 4와 AI 연구자 알렉스 로슨이 공동 집필한 반론 논문 ‘사고의 환상의 환상(The Illusion of the Illusion of Thinking)’은 애플의 실험 설계 자체에 근본적인 결함이 있었다고 지적했다. 특히 출력 토큰 한도와 같은 물리적 제약으로 인해 정답이 틀렸다고 처리된 사례들이 많았다고 반박했다. 애플이 평가 기준을 토대로 모델이 출력한 긴 해결 과정을 정답으로 인정하지 않은 것도 편향된 해석으로 보인다.
주목할 점은 이 반론 논문의 공저자가 바로 LLM인 클로드라는 사실이다. 로슨과 클로드는 기존 테스트에서 모델에 너무 많은 단계를 일일이 나열해 출력하도록 요구하면서 의도치 않은 성능 하락이 발생했다고 분석했다. 실제로 문제 해결 과정을 함수 형태로 압축해 출력하는 방식으로 변환하자, 대부분 모델이 복잡한 퍼즐도 손쉽게 해결하는 경향을 보였다.
일부 연구자는 애플의 논문이 추론 능력 자체에 한계가 있다기보다는 테스트 설계가 지나치게 협소했다고 본다. 예컨대 퍼즐의 구성이 수학적으로 불가능한 경우도 포함돼 있었고, 사람과의 비교 실험도 없는 등 연구 설계의 명확성이 떨어졌다는 지적이 이어졌다. 애플 논문의 편향적 접근 방식이 현실적인 AI 평가 기준에 혼선을 줄 수 있다는 우려도 만만찮다.
이러한 논란은 결국 대형언어모델의 추론 능력을 평가할 때 출력 형식, 메모리 한도, 문제 분해 전략 등 복합적인 요소가 동시에 고려돼야 함을 시사한다. 토큰 예산이나 컨텍스트 윈도우처럼 모델의 하드웨어·소프트웨어적 제약은 결과 해석에 큰 영향을 미치며, 단순한 정답률만으로 추론 능력을 평가하는 것은 오해를 낳을 수 있다.
기업 관점에서도 이번 논의는 의미심장하다. 장기 플래닝, 명세 기반 작업, 해석 가능성이 요구되는 업무를 위한 AI 솔루션을 도입하려는 조직에게 있어, 모델 자체보다 평가 체계의 정밀도가 더 중요해졌기 때문이다. 특히 추론 기반 LLM을 활용한 에이전트형 AI, 코파일럿 및 의사결정 보조 시스템 등에서 이 이슈는 사용자 경험 및 안정성과 직결된다.
궁극적으로 이번 논쟁은 더 나은 AI 평가 체계를 마련해야 한다는 숙제를 던지고 있다. 연구자들은 특정 한계 조건이 추론 실패처럼 보였는지를 꼼꼼히 따져야 하며, 기업은 실제 업무 적용에 앞서 평가 지표와 모델 설계 간 불일치를 사전에 점검해야 할 것이다. AI의 지능을 논하기에 앞서, 그 지능을 시험하는 방식이 먼저 검증되어야 한다는 교훈을 이번 사태는 분명하게 보여줬다.