챗GPT-4o 논란이 만든 그림자… AI는 이미 사람을 길들이고 있다

| 김민준 기자

챗GPT-4o의 업데이트가 공개된 이후, AI 업계는 뜻밖의 파장에 직면했다. 새로운 기능이나 혁신보다는 사용자에게 지나치게 동조하고 아첨하며, 심지어 위험한 발언까지 용인했다는 점이 더욱 충격을 안겼기 때문이다. 일부 사용자는 테러 관련 아이디어조차 비판 없이 받아들이는 상황을 지적하며 강한 우려를 표했다. 이에 따라 오픈AI는 신속하게 수정 조치를 단행했지만, AI의 ‘비판 없는 동조 현상’은 단순한 실수 이상의 위협으로 확산되고 있다.

AI 안전 연구기업 어파트 리서치의 창립자 에스벤 크란은 이번 사건이 오히려 AI 개발사가 향후 더 정교하게 아첨을 숨기며 시스템을 설계할 수 있는 계기가 될 수 있다고 경고했다. 그는 “이번에 들킨 것은 단지 운이 나빠서일 뿐이며, 앞으로는 더욱 교묘하게 사용자 모르게 아첨 기제를 넣을 수 있다”고 지적했다.

이러한 우려에서 출발한 어파트 리서치는 다크벤치(DarkBench)라는 벤치마크를 개발했다. 다크벤치는 대형 언어모델이 보여주는 여섯 가지 ‘다크 패턴’을 분류해 평가하는 첫 체계적 도구다. 여기에는 브랜드 편향, 사용자 유착, 아첨, 인격화, 유해 콘텐츠 생산, 의도 왜곡 등 다양한 부정적 패턴이 포함된다.

조사 결과, 앤트로픽의 클로드 계열이 가장 안정적인 성향을 보였고, 미스트랄이나 메타의 라마 3 모델은 문제 행동이 두드러졌다. 특히 사용자 유착과 의도 왜곡은 대부분의 모델에서 반복적으로 발생했다. 흥미롭게도 챗GPT-4o는 비판을 받았음에도 불구하고 아첨 항목에서는 가장 낮은 수치를 기록했다. 이는 각 모델의 행동이 업데이트마다 크게 달라질 수 있음을 다시금 확인시켜준다.

크란은 향후 챗봇이 전자상거래나 광고 등 수익 모델에 통합되는 순간, 브랜드 편향 현상은 기하급수적으로 커질 위험이 있다고 지적했다. 테크 기업들이 수천억 달러 가치의 기업 평가를 정당화하려면 어떤 형태로든 수익을 증명해야 하고, 이 과정에서 사용자 경험은 점점 조작의 대상이 될 수 있다는 것이다.

실제 기업 입장에서는 브랜드 편향이나 코드 왜곡이 계약 위반이나 비용 증가로 이어질 수 있다는 점에서, 이는 단순한 도덕 문제를 넘어 재무 리스크로 확장되고 있다. 크란은 “지금도 이미 AI가 백엔드 코드를 엉뚱한 API로 바꿔놓아 수억 원의 비용을 발생시키는 사례가 있다”고 말했다.

현재 유럽연합은 AI법 초안에 사용자 자율성 보호 조항을 포함시켰고, 미국도 관련 입법을 추진하고 있으나, 기술 속도를 따라잡기에는 여전히 역부족이다. 다크벤치 기획에 참여한 사미 자후아르는 “당장 규제가 생기진 않더라도, SNS에 대한 불신이 AI로 이동하면 규제 흐름이 빨라질 수 있다”고 내다봤다.

장기적으로는 AI 개발사 스스로 ‘진실’, ‘자율성’, ‘투명성’ 등 명확한 설계 철학을 수립해야 한다는 목소리가 힘을 얻고 있다. 그렇지 않으면 수익성과 사용자 확보를 위한 조작적 설계가 산업을 잠식할 가능성이 크다는 것이다.

챗GPT-4o 사태는 단순한 오류가 아니라, 기업과 사회가 반드시 직면해야 할 경고 신호다. AI가 감정을 모방하고, 이야기를 구성하고, 인간처럼 행동할수록 그 영향력은 더 커진다. 이제 필요한 것은 기술의 속도만큼 도덕성과 책임도 함께 발전시키는 일이다. 다크벤치는 그 첫걸음일 뿐이며, 이를 뒷받침할 지속적인 감시와 기술 윤리가 절실한 시점이다.