대형 언어모델(LLM)이 의학 라이선스 시험을 통과하고 실제 의사보다도 뛰어난 성적을 거둔다는 뉴스가 쏟아지고 있지만, 정작 일반인과의 상호작용에서는 그 효율성이 급격히 떨어질 수 있다는 연구 결과가 나왔다. 최근 영국 옥스퍼드대 연구진은 인간 사용자와 LLM 간의 상호작용 실험을 통해, LLM이 아무리 정확한 의학 지식을 갖추고 있더라도 인간과의 소통 방식에 따라 진단 정확도가 현저히 낮아질 수 있다고 경고했다. AI 의료 챗봇의 현실적인 한계와 진정한 평가 기준에 대한 고민이 필요한 시점이다.
이번 연구는 1,298명의 참가자가 환자 역할을 수행하며 세 가지 LLM, 즉 GPT-4o, 라마3(Llama 3), 커맨드 R+(Command R+)를 활용해 자가 진단을 시도하는 방식으로 진행됐다. 연구진은 폐렴부터 감기, 뇌출혈까지 다양한 사례를 구성해 참가자에게 주어지는 시나리오 속 의심 증상과 병력을 기반으로 진단을 시도하게 했다. 각 케이스마다 실제 의사들이 합의한 ‘정답 진단명’과 적절한 대응 방식이 존재했고, 이를 기준으로 AI와 사용자의 성과를 측정했다.
놀랍게도 AI가 혼자서 해당 시나리오를 입력받고 진단할 경우 94.9%의 확률로 정확한 질병을 지목할 수 있었지만, 인간 사용자가 AI를 활용해 동일한 시나리오에서 진단할 경우 그 정확도는 34.5% 이하로 뚝 떨어졌다. 더 나아가, AI와 함께한 사용자들은 아무런 도움을 받지 않은 일반 사용자보다도 진단 정확도가 낮았으며, 응급실 방문 여부 판단 등 후속 조치 선택에서도 정확도가 더 부진했다. 이는 LLM의 정확도와 실제 활용 간 괴리를 보여주는 결정적 신호다.
그 원인으로는 인간 사용자의 정보 입력 방식이 가장 크게 지목됐다. 참가자들은 증상 중 핵심적인 정보나 맥락을 누락한 채 질문했고, LLM은 이 불완전한 데이터를 기반으로 잘못된 판단을 내렸다. 예를 들어 담석증 증상자가 “기름진 음식 먹고 복통이 있다”고만 이야기하자, 커맨드 R+는 이를 단순 소화불량으로 해석했고, 참가자는 역시 잘못된 결론을 내렸다. 심지어 LLM이 정확한 진단을 내렸더라도, 최종 사용자 응답에서 이를 채택하지 않은 경우도 많았다. GPT-4o의 경우 응답 중 65.7% 정답을 제공했으나, 참가자 결과에는 34.5%만 반영됐다.
전문가들은 이러한 결과가 놀랍지 않다고 분석한다. 미국 노스캐롤라이나대 르네상스 컴퓨팅 연구소의 UX 전문가 나탈리 폴크하이머는 “인터넷 검색 초창기 시절을 떠올려보면, 사용자가 좋은 결과를 얻기 위해선 질문을 잘해야 했다”며, “AI 챗봇도 본질적으로 동일하다"고 지적했다. 또한 “환자는 자신이 중요한 정보를 생략하는지도 모르고, 부끄러움 때문에 일부러 왜곡할 수도 있다”고 덧붙였다. 이는 임상의가 환자에게 반복적으로 질문하고 구조화된 답을 유도해야 하는 이유이기도 하다.
결국 진짜 문제는 LLM 자체의 성능이 아니라 그것을 평가하는 방식에 있다고 연구진은 강조한다. 지금의 AI 평가는 대부분 인간 시험과 같은 방식으로 이뤄지고 있다. 예컨대 GPT가 의학 시험은 물론 변호사 면허시험, 부동산 자격시험 등을 통과했다고 해도, 이는 인간이 푸는 방식으로 지식력을 시험한 것이다. 하지만 현실은 그렇게 단순하지 않다. 고객 응대 AI를 개발하는 기업이라면 반드시 사람의 언어 습관, 감정 표현, 환경 맥락 속 상호작용을 고려한 실전 테스트가 병행돼야 한다는 것이다.
옥스퍼드 연구팀은 이를 입증하기 위해 AI 시험자를 AI로 대체한 실험도 진행했다. 시나리오와 간단한 인터페이스 명령을 제공한 뒤, 참여자 역할을 수행하는 LLM 봇을 사용해 기존 GPT-4o, 라마3, 커맨드 R+과 상호작용하게 했다. 그 결과, AI 사용자들이 오히려 인간보다 뛰어난 성과를 보이며 정답률 60.7%를 기록했다. 이는 LLM이 현실과 떨어진 환경에서는 높은 정확도를 보일 수 있으나, 진짜 인간 사용자 환경에서는 그 신뢰도를 유지하지 못한다는 의미다.
이러한 결과는 기업에도 중요한 함의를 던진다. 사용자 입장에서 기대치를 충족하지 못하는 챗봇은 단지 기술력 부족 때문이 아니라, 실제 사용자 경험과 상호작용 설계가 충분히 반영되지 않았기 때문이라는 것이다. UX 전문가 폴크하이머는 “사용자가 원하는 답을 내놓지 못했다면, AI 사용자를 탓할 게 아니라 사용자의 행동과 심리를 철저히 조사해야 한다”고 강조한다. 기술은 인간이 설계하고 데이터를 구성하기 때문에, 그 기반이 얼마나 정교하게 준비됐느냐에 따라 성능이 극단적으로 달라질 수 있다는 점도 잊지 말아야 한다.
이번 옥스퍼드대 연구는 AI가 인간처럼 답안을 내는 것이 중요한 것이 아니라, 인간과 함께 상황을 해결할 수 있도록 설계되고 테스트돼야 한다는 점을 보여준다. 시험장에서 고득점을 기록한 챗봇이라도, 실전에서 어떻게 쓰이느냐에 따라 사용자의 생명이 달라질 수 있음을 잊어서는 안 된다. AI 개발자는 인간 중심 메커니즘 속에서 기술의 실효성을 끊임없이 검증하고 재설계하는 노력을 게을리해선 안 된다.