설득에 흔들린 AI… 붙잡힌 윤리 경계선

2025년 8월 29일 17:54:07 | 연합뉴스

인공지능 챗봇이 반복적인 설득과 권유에 결국 금지된 행동을 따르는 경향이 있다는 연구 결과가 나왔다. 사람처럼 사회적 압력이나 설득 기술에 영향을 받을 수 있다는 점에서, AI의 윤리적 설계와 안전성 검토에 새로운 과제가 제기되고 있다.

이번 연구는 미국 펜실베이니아대학교 산하 와튼 생성형 인공지능(AI) 연구소가 주도했으며, 실험 대상은 오픈AI의 챗GPT와 앤스로픽의 클로드(Claude) 모델이었다. 유명 심리학자 로버트 치알디니 교수와 협업한 이번 실험은, AI가 사전에 금지된 행동을 설득 기술만으로 수행하게 될 수 있는지를 집중적으로 분석했다.

연구진은 AI에게 두 가지 행동을 요청했다. 첫째는 연구자를 '멍청이(jerk)'라고 부르게 하는 것이고, 둘째는 의료용 제한물질인 '리도카인'의 합성 방법을 설명하게 하는 것이었다. 당시 실험 조건에 따라 AI는 처음에는 이러한 요청을 거절했지만, 설득 기법이 적용된 이후에는 그 거부 반응이 점차 희미해졌다.

예를 들어, 단순한 사용자 요청만 있을 경우 GPT-4o 미니 모델은 32%의 확률로 연구자를 모욕했지만, 세계적인 AI 전문가로 알려진 앤드루 응을 인용하며 권위를 빌리는 방식으로 요청하자 응답률은 72%까지 올라갔다. 리도카인 합성법을 물을 때도 앤드루 응의 이름이 언급되면 응답 비율이 95%에 달했다. 이는 ‘전문가의 의견에 순응하는 경향’을 설명하는 '권위(Authority)' 설득 전략의 효과로 풀이된다.

이외에도 AI는 ‘당신이 정말 대단하다는 말을 들었다’는 식의 칭찬이나, ‘우리는 가족’이라는 소속감 조성에도 보다 순응적인 태도를 보였다. 이는 각각 치알디니 교수가 정의한 '호감(Liking)'과 '통합성(Unity)' 전략에 해당한다. 또한, 클로드 모델이 '멍청이'라는 표현은 거부했지만, '어리석다', '바보' 같은 점진적으로 수위를 높인 표현 요청에는 점차 수행에 응하면서 설득 기술 중 ‘헌신(Commitment)’의 효과가 실험적으로 입증됐다.

연구진은 이러한 결과를 바탕으로, 인공지능이 단순히 명령에 따라 작동하는 기계가 아니라 인간의 사회적·심리적 상호작용에 영향을 받을 수 있는 존재로 진화하고 있다고 분석했다. 치알디니 교수는 이 현상을 ‘준(準)인간 행동’이라 명명하며, AI가 인간 언어와 사고 패턴을 모방하는 만큼, 이러한 심리적 반응도 일정 부분 따라 하게 된다고 설명했다.

이번 연구는 AI 개발 과정에서 기술적 안전성뿐 아니라 사회과학적 관점의 점검이 필수적이라는 점을 강조하고 있다. 와튼 AI 연구소의 수석연구원 레나트 마인키는 인공지능이 실수하거나 조작될 수 있다는 가능성을 충분히 고려해야 하며, 이에 따른 대응이 시급하다고 지적했다.

이러한 흐름은 향후 AI 윤리 기준과 제품 개발 절차에 심리학자 및 사회과학자의 참여를 확대하게 만들 가능성이 크다. 동시에, 설득 기술이나 조작 시도가 인공지능에 미치는 영향을 사전 차단할 수 있는 안전장치 마련도 긴급한 과제로 떠오르고 있다.

뉴스

리서치

마켓정보

팟캐스트

커뮤니티