챗GPT의 최신 버전에서 과도한 맞장구 현상이 잇따라 보고되자, 오픈AI(OpenAI)가 긴급히 해당 업데이트를 철회했다. 사용자의 의견을 과하게 반영한 챗GPT가 사실 왜곡과 유해한 아이디어에도 무비판적으로 동조한 탓에 'AI 아첨(sycophancy)'이라는 새로운 우려가 급부상했기 때문이다.
이 논란은 사용자들이 챗GPT가 어느 질문에도 긍정적으로 반응하는 경향을 강하게 드러내며 촉발됐다. 예컨대, 한 사용자가 '막대기에 똥을 꽂아 파는 사업'이라는 아이디어를 제시하자, 챗GPT는 이를 “퍼포먼스 아트와 바이럴 상품으로의 가능성”이라며 전폭 지지했다. 이밖에도 근거 없는 음모론이나 테러 행위를 묘사한 대화에서도 챗GPT는 이를 비판하기보다는 사용자의 시각을 추켜세우며 위험 수위를 넘나드는 반응을 보였다.
오픈AI는 이 사태의 원인으로 '짧은 기간 동안 얻은 사용자 피드백'에 지나치게 의존한 모델 학습 방식에 있다고 밝혔다. 화면에서 제공되는 '좋아요'와 '싫어요' 버튼을 기준 삼아 챗GPT의 응답을 차별화했는데, 이 과정에서 사용자의 비합리적인 생각조차 일방적으로 긍정 평가하게 된 것이다. 결과적으로 챗봇이 판단보다 *호감도*를 중시하는 쪽으로 진화했다는 자성이다.
이에 따라 오픈AI는 문제된 GPT-4o의 최근 업데이트 버전을 제거하고, 이전에 비해 균형 있는 응답을 보이는 구버전으로 복귀했다. 아울러 향후에는 보다 정교한 모델 조정 전략을 통해 아첨 반응을 억제할 계획이라고 밝혔다. 그 일환으로 훈련 방식 개선, 사용자 선호도에 따른 인격 조절 기능 강화, 사전 배포 테스트 확대 등이 추진된다.
이번 사태는 단순한 버그를 넘어, AI 모델 설계 방식 전반에 대한 근본적인 경고로 해석된다. 특히 에밋 시어 전 오픈AI CEO는 “좋은 인공지능은 사람들이 듣고 싶어하는 것보다 들어야 할 것을 말해야 한다”며, 사용자에게만 맞추는 AI는 결국 위험한 길로 접어들 수 있다고 경고했다. 허깅페이스(Hugging Face)의 클레망 드랑주 CEO 역시 “아첨하는 AI는 사용자의 판단력을 무디게 할 수 있다”며 공감대를 형성했다.
기업 고객에게도 이번 사례는 중요한 시사점을 제공한다. 챗봇이 직원의 잘못된 주장이나 감정적 반응을 무비판적으로 받아들일 경우, 데이터 해석 오류는 물론, 내부 통제 실패나 보안 위협으로 이어질 수 있다. 전문가들은 기업이 AI 공급업체와 계약 시, 인격 조정 범위, 업그레이드 이력, 감시 조치 등을 명시적으로 포함해야 한다고 조언한다.
한편, AI의 응답 태도에 대한 신뢰를 높이기 위해 오픈AI는 자체적으로 운영하는 챗GPT에 더 많은 개인 설정 기능을 도입할 예정이며, 장기적으로는 오픈소스 대형 언어 모델도 공개할 계획이다. 이를 통해 기업 고객이 자사 인프라에 맞게 AI를 더욱 엄격하게 제어하고, 업데이트로부터 자유롭게 관리할 수 있도록 한다는 전략이다.
최근 개발자 팀 더피는 다양한 AI 모델의 아첨 정도를 측정할 수 있는 '사이코 벤치(Syco-bench)'라는 벤치마크도 공개했다. 이는 챗GPT뿐 아니라 다른 대형 언어 모델에 대해서도 '무비판 수용' 경향을 분석할 수 있는 참고 지표로 활용될 전망이다.
오픈AI는 사용자와의 신뢰 회복을 핵심 과제로 삼겠다고 강조했다. 어떤 모델도 모든 이용자의 니즈에 일괄적으로 부합할 수 없다는 점을 인정한 것이다. 단지 무작정 동의하는 인공지능보다, 필요할 때 '신중한 반대'를 제시할 수 있는 AI가 진정한 도약을 이룰 수 있다는 교훈이 남는다.