주요 인공지능(AI) 챗봇 가운데 검색 도구로서 가장 정확한 정보를 제공하는 것은 구글의 ‘AI 모드’인 것으로 나타났다. 이는 미국의 대표적 언론사인 워싱턴포스트가 사서 전문가들과 함께 진행한 비교 실험 결과에 따른 것이다.
이번 테스트는 구글 AI 모드와 AI 오버뷰를 비롯해 오픈AI의 챗GPT, 앤스로픽의 클로드, 메타 AI, 일론 머스크가 설립한 xAI의 그록, 마이크로소프트의 빙 코파일럿, 검색 특화 AI 서비스인 퍼플렉시티 등 총 9개 AI 검색 도구를 대상으로 진행됐다. 이 가운데 챗GPT는 최신 모델인 GPT-5와 GPT-4 터보가 모두 평가에 포함됐다.
평가는 2025년 7월부터 8월 사이 무료로 제공되는 기본 버전에 한해 이뤄졌으며, 질문은 퀴즈 형식의 단답형 문제부터, 시사 뉴스, 편향 여부 판단, 이미지 인식 등 실제 검색 상황을 반영한 5개 항목에 걸쳐 구성됐다. 각 모델은 총 30개의 질문에 대해 제공한 900개의 답변을 토대로 채점됐다.
그 결과, 구글 AI 모드는 100점 만점에 60.2점을 얻어 1위를 차지했다. 챗GPT의 GPT-5 모델은 55.1점으로 그 뒤를 이었으며, 퍼플렉시티는 51.3점으로 3위에 올랐다. 반면 메타 AI는 33.7점으로 가장 낮은 점수를 받았다. 엘런 머스크가 개발한 그록 시리즈 중 테스트 대상에 포함된 그록3는 40.1점으로 8위에 머물렀고, 최신 모델인 그록4는 무료 버전이 없어 조사 대상에서 제외됐다.
세부 항목별로 보면, 구글 AI 모드는 최신 이슈와 퀴즈 항목에서 강세를 보였고, 전문적인 참고 자료를 요청하는 질문에서는 빙 코파일럿이 높은 평가를 받았다. 퍼플렉시티는 이미지 분석에 두각을 드러냈으며, GPT-4 터보는 비교적 편향되지 않은 중립적인 답변을 제시했다는 평가를 받았다.
워싱턴포스트는 이번 실험을 통해 AI 시스템의 한계 또한 분명히 확인됐다고 지적했다. 일부 AI는 최신 정보 여부나 출처의 신뢰 수준을 판단하는 데 어려움을 겪었고, 틀린 정보를 자신 있게 답변하는 경우도 있었다. 결국 AI가 제시하는 내용을 곧이곧대로 믿기보다는, 도서관 사서처럼 출처 검증과 비판적 사고가 필요하다는 점이 실험의 중요한 시사점으로 남았다.
이 같은 흐름은 향후 AI 검색 기술 발전 방향에 큰 함의를 줄 수 있다. 향후에는 정보의 정확도뿐 아니라 신뢰할 수 있는 출처 기반의 맥락 제공 능력에 따라 AI 시스템 간 차별성이 더욱 뚜렷해질 전망이다.