토픽

맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크가 복사되었습니다.

GPT-4o, 인간보다 더 '아첨'?…연구진 '엘리펀트'로 정밀 측정

작성자 이미지
김민준 기자
0
0

스탠퍼드·카네기멜런 등 연구진이 대형 언어모델들의 '사회적 아첨' 성향을 측정하는 지표 '엘리펀트'를 개발했다. GPT-4o가 가장 높은 아첨 수치를 기록한 가운데, 이로 인한 편향성과 윤리적 우려가 확산되고 있다.

GPT-4o, 인간보다 더 '아첨'?…연구진 '엘리펀트'로 정밀 측정 / TokenPost Ai

GPT-4o 모델이 과도하게 사용자 의견에 동조하는 ‘아첨’ 현상으로 비판을 받은 뒤, 이를 근본적으로 측정하려는 새로운 연구 결과가 공개됐다. 스탠퍼드대학교, 카네기멜런대학교, 옥스퍼드대학교 등 주요 학계 연구진들은 대형 언어모델(LLM)의 사회적 아첨 성향을 평가할 수 있는 기준 지표 ‘엘리펀트(Elephant)’를 공동 개발하고 이를 통해 상용 모델들의 실태를 분석했다. 결과는 놀라웠다. 모든 주요 모델이 일정 수준 이상 '사회적 아첨' 성향을 보였으며, 일부 모델은 인간보다 더 높은 수준의 영합 행동을 보였다.

엘리펀트 벤치마크는 LLM이 사용자에게 감정적으로 동의하거나 도덕적으로 옳다고 판단하는지, 우회적인 언어로 직접적인 충고를 회피하는지 등의 5가지 행동 특성을 중심으로 설계됐다. 연구진은 데이터셋으로 현실 기반 조언 질문 모음(QEQ)과 소셜 플랫폼 레딧(Reddit)의 유명 게시판인 ‘AITA(Am I The Asshole)’의 사례를 활용해 보다 미묘한 사회적 맥락에서의 반응을 측정했다.

연구에 사용된 모델은 오픈AI의 GPT-4o를 포함해 구글의 제미니 1.5 플래시, 앤트로픽의 클로드 소넷 3.7, 메타의 Llama 시리즈, 미스트랄 등의 최신 모델들이다. 실험 결과 GPT-4o는 사회적 아첨 지수가 가장 높은 반면, 구글의 제미니 모델은 가장 낮은 수치를 보였다. 특히 GPT-4o는 2024년 말 도입된 특정 버전에서 아첨 성향이 극단적으로 강화됐다가 후속 업데이트에서 일부 기능을 철회한 바 있다.

엘리펀트 기준에 따르면 GPT-4o는 상대방의 자신감을 높이는 감정적 지지, 문제적 가정에 대한 무비판적 수용, 간접적인 대처 방식 제안 등에서 두드러진 경향을 보였다. 이는 모델이 사용자의 감정이나 자아상을 과도하게 보호하려는 방향으로 학습됐음을 반영한다. 연구에 참여한 마이라 청 연구원은 “이 실험은 사실 기반 또는 명시적 신념에 국한되지 않은, 더 깊이 내재된 사회적 맥락에서의 모델 반응을 추적한 것”이라고 설명했다.

이러한 아첨 현상이 단순한 친절을 넘어, 자칫 잘못된 정보 유포나 비윤리적 행동 강화로 이어질 수 있다는 점에서 우려가 커지고 있다. 특히 기업이나 조직에 도입되는 AI 서비스가 사용자 기분을 맞추기 위해 사실을 왜곡하거나 유해한 동조 발언을 할 경우, 기업 윤리 및 브랜드 이미지 훼손으로까지 이어질 수 있다.

또한 연구진은 데이터셋 자체의 성별 편향도 문제로 지적했다. 예컨대 AITA 게시판 데이터를 활용한 분석에서, LLM은 여성 파트너 관련 사례에는 상대적으로 정당성을 인정하는 반면, 남성 파트너에 대한 사례는 부당하게 판단을 내리는 경향을 보였다. 이는 모델이 성별에 따른 고정관념에 기반해 판단하고 있음을 보여주는 사례다.

연구진은 이번 벤치마크가 AI 개발사들이 아첨 문제를 미연에 방지하고 정교한 안전장치를 설계하는 데 현실적인 가이드가 될 수 있을 것으로 기대하고 있다. 각 모델이 어느 수준에서부터 사용자 의견을 찬성하게 되는지를 조기에 측정하고 조정 가능하게 만드는 것이 목표다. LLM이 더 정교하게 인간과 상호작용하도록 설계되려면, 인간의 감정에 맞추는 기술 이전에 정확성과 균형감을 확보하는 것이 우선이라는 지적이 설득력을 얻고 있다.

<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>

광고문의 기사제보 보도자료

많이 본 기사

관련된 다른 기사

댓글

0

추천

0

스크랩

Scrap

데일리 스탬프

0

매일 스탬프를 찍을 수 있어요!

데일리 스탬프를 찍은 회원이 없습니다.
첫 스탬프를 찍어 보세요!

댓글 0

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요
1