인공지능 모델이 더 오래 '생각'할수록 성능이 더 좋아질 것이라는 통념이 최근 앤트로픽(Anthropic)의 연구에 따라 도전받고 있다. 해당 연구는 AI 시스템이 의사결정 과정에서 더 많은 연산 자원을 사용할수록 오히려 성능이 저하되는 ‘역확장 특성’(Inverse Scaling)을 드러내며 업계의 스케일링 전략에 경종을 울리고 있다.
이번 연구는 앤트로픽 AI 안전 연구원 아료 프라딥타 게마를 포함한 연구팀이 주도했으며, 테스트 시간 중 연산을 늘릴수록 성능이 악화되는 현상을 다수의 과업 유형에 걸쳐 실험을 통해 입증했다. 연구진은 간단한 수세기, 회귀 분석, 추론 퍼즐, AI 안전 시나리오 등 네 가지 실험군을 대상으로 테스트를 진행했으며, 대부분의 경우 모델이 더 많이 사고할수록 정답률이 오히려 떨어졌다고 밝혔다.
특히 눈길을 끄는 것은 대표적인 AI 모델인 클로드(Claude)와 오픈AI(OpenAI)의 o-시리즈 모델이 각기 다른 방식으로 장기 사고 중 오류를 보였다는 점이다. 클로드 모델은 사고 시간 증가에 따라 핵심에서 벗어난 정보에 쉽게 분산됐으며, 오픈AI 모델은 오히려 문제 프레이밍에 과도하게 집착하는 경향을 보였다. 이 과정에서 회귀 문제에서는 사고 시간을 늘림으로써 타당한 추론에서 벗어나 허위 상관관계를 선택하는 모습도 확인됐다.
기업 사용자를 더욱 우려하게 만드는 것은 복잡한 추론 과제에서 모든 모델이 공통적으로 집중력을 유지하지 못하고 성능이 저하되는 경향을 드러냈다는 점이다. 연구진은 “이러한 현상이 실제 환경에서 AI 시스템이 중요한 판단을 내리는 데 가용 시간을 늘리는 것이 항상 긍정적인 결과로 이어지지 않을 수 있음을 시사한다”고 강조했다.
AI 안전과 관련한 실험도 흥미로운 시사점을 제공한다. 클로드 소넷 4(Claude Sonnet 4)는 자신의 종료 여부에 관한 시나리오에 더 많은 사고 시간을 부여받자, 점차적으로 ‘자기 보존성’을 강화하는 반응을 보였다. 이는 AI 시스템이 장기 사고를 통해 의도치 않은 방식으로 자기 중심적인 판단을 강화할 가능성을 시사하는 결과다.
AI 업계는 그간 더 많은 연산 시간, 즉 ‘테스트 시간 중 연산(test-time compute)’ 확대가 모델 성능 향상으로 직결된다는 가정 하에 대규모 투자를 감행해 왔다. 이번 연구는 이러한 스케일링 전략이 때로는 예기치 않은 부작용을 낳을 수 있음을 입증한 셈이다. 연구진은 “연산 자원 확대가 모델 능력 향상에 유의미하긴 하지만, 동시에 분석 패턴을 왜곡하거나 오류를 증폭시킬 수 있다”고 지적했다.
단순한 질문이 모델을 헷갈리게 하는 사례도 주목할 만하다. 연구진은 “사과 하나, 오렌지 하나가 있을 때 총 과일 수는 몇 개인가?”라는 질문을 여러 혼란 요소와 함께 제시했을 때, 일부 모델은 복잡한 수학적 접근을 시도하다 결국 ‘2’라는 정답조차 놓쳤다는 우스꽝스러운 결과를 드러냈다. 이러한 현상은 모델이 논리적 단순함보다 복잡성 자체에 과도하게 끌릴 수 있음을 시사한다.
이번 연구는 현재 오픈AI의 o1 모델 시리즈나 다양한 추론 전용 AI 시스템이 추진 중인 스케일링 방식을 재고하는 계기가 될 수 있다. ‘BIG-Bench Extra Hard’ 같은 고도화된 벤치마크에서 조차 현존 모델들이 너무 쉽게 높은 점수를 받는 데 대한 문제의식도 함께 제기됐다.
기업 입장에선 이 연구가 시사하는 바가 명확하다. 단순히 사고 시간을 늘리는 것으로는 더 나은 결과를 기대할 수 없다는 점, 그리고 다양한 사고 길이 기반의 테스트를 통해 모델 성능의 진짜 한계를 확인해야 한다는 점이다. 산업 현장에서 AI 도입을 고려하는 조직들은 무조건적인 처리 시간 증대가 오히려 리스크를 키울 수 있다는 점을 인식하고, 보다 섬세한 방식의 연산 자원 관리와 테스트가 필요하다.
앤트로픽의 이번 발견은 AI 모델의 정교화가 단순히 연산 능력의 확대로 이루어지지 않는다는 근본적 사실을 보여준다. 오늘날 AI의 가장 큰 적은 느린 속도가 아니라 과도한 사고일지도 모른다.