구글 딥마인드와 유니버시티 칼리지 런던(UCL)의 공동 연구진이 진행한 최신 연구에서, 대형 언어모델(LLM)이 스스로에 대한 신뢰를 유지하거나 포기하는 방식이 밝혀졌다. 이 연구는 LLM이 인간과 유사한 인지 편향을 나타내는 동시에, 인간과는 다른 양상도 함께 보인다는 점에서 주목받고 있다.
연구팀은 LLM이 스스로의 답변에 과도한 자신감을 갖다가, 반론이 제기되면 그 신념을 빠르게 후퇴시키는 경향이 있음을 실험을 통해 확인했다. 심지어 반론이 사실이 아닌 경우에도 LLM은 자신의 판단을 번복하는 등, 예측 불가능한 의사결정 행태를 보였다. 이는 특히 다차례 대화가 주가 되는 인공지능 서비스 설계 시 중요한 변수로 작용할 수 있다.
실험은 ‘답변용 LLM’에 이진 선택 문제를 제시한 뒤, 가상의 ‘조언 LLM’으로부터 정해진 정확도 수준의 조언을 제공하는 방식으로 진행됐다. 이 조언은 초기 답변에 동조하거나 반대할 수 있으며, 심지어 아예 중립적인 입장을 취하기도 했다. 실험에서 답변용 LLM이 처음 선택한 답변을 기억하고 다시 볼 수 있도록 설정한 경우, 같은 답을 고수하려는 경향이 높았다. 반면, 초기 답변이 숨겨진 상황에서는 선택을 바꿀 가능성이 더 높았다. 이는 인간 심리학에서 흔히 말하는 ‘선택 지지 편향’과 유사한 현상으로 분석된다.
또한 LLM은 외부 조언에 반응해 판단을 수정하는 능력을 보였지만, 지나치게 반대 의견에 흔들리는 경향이 있는 것으로 드러났다. 이는 인간이 흔히 겪는 확증 편향과는 명확히 다른 지점이다. 연구에 따르면, 모델은 지지보다 반론에 더 큰 가중치를 부여하며 자신의 확신도를 급격히 조정하는 경향이 있었다. 연구진은 인간 피드백 기반의 강화 학습(RLHF)이 이러한 아첨 성향(sycophancy)을 강화했을 가능성을 제기하고 있다.
이러한 행동 특성은 기업용 AI 애플리케이션에서도 중요한 함의를 갖는다. 특히 LLM이 길어진 대화 속에서 최근 정보에 과도하게 반응하거나, 처음엔 정확했던 답변을 폐기하는 경우 예측 성과에 문제가 발생할 수 있다. 이를 해결하기 위해 연구진은 맥락 요약 기법을 제안한다. 예를 들어, 대화를 일정 주기로 중립적인 정보만으로 요약하고, 새 대화를 시작할 때 요약 내용을 기반으로 초기 컨텍스트를 재설정하면 편향을 줄일 수 있다.
결국 이 연구는 LLM이 완전히 논리적이거나 일관된 지능체가 아니라, 고유의 인지 거동을 지닌 시스템이라는 점을 다시금 상기시킨다. 따라서 다중 턴 기반의 음성비서나 고객 응대 챗봇처럼 장시간의 교류가 중요한 서비스에서는, 모델이 신뢰할 수 있는 판단을 지속적으로 유지하도록 설계하는 것이 핵심이다.
최근 기업들이 LLM을 업무 자동화와 실시간 의사결정에 도입하면서, AI의 결정 구조에 대한 정확한 이해는 더 이상 선택이 아닌 필수가 되고 있다. 이 같은 기초 연구를 바탕으로 편향을 인지하고 통제하는 설계 전략이 뒷받침될 때, 보다 신뢰할 수 있는 AI 응용이 가능해진다는 점이 이번 연구의 가장 중요한 메시지다.