엔터프라이즈 환경에서 활용되는 생성형 AI 시스템의 정확성과 신뢰성을 높이기 위한 새로운 접근이 구글(GOOGL)의 최신 연구를 통해 제시됐다. 연구진은 이를 ‘충분한 문맥(sufficient context)’이라는 개념으로 정의하며, 검색 기반 생성(RAG) 시스템의 한계를 극복할 수 있는 실마리를 제공한다고 밝혔다. 사실 관계를 기반으로 동작해야 하는 기업용 AI 환경에서는 질문에 정확히 답할 수 있는 정보가 문맥 속에 존재하는지를 판단하는 능력이 핵심 과제로 떠오르고 있다.
RAG 시스템은 고도로 사실적인 답변을 유도하기 위해 외부 문서를 모델에 연결해 주지만, 종종 비관련 정보에 주의가 흩어지거나, 명확한 답이 있음에도 오답을 자신 있게 출력하는 오류를 보이곤 한다. 이에 대해 구글 연구팀은 LLM이 단순히 정보를 흡수하는 것이 아니라, 주어진 ‘문맥’이 질문에 충분히 부합하는지를 스스로 판단할 수 있어야 한다고 강조했다. 다시 말해, 답변 가능한 수준의 정보를 보유한 문맥인지 아닌지를 분류해야 한다는 논리다.
연구에 따르면, 충분한 문맥 판단은 실제 정답을 알 필요 없이 질문과 문맥만으로 수행할 수 있으며, 이는 실제 응용 환경에서 매우 실용적인 접근이다. 구글은 이를 위해 ‘오토레이팅(autorating)’이라는 자동 분류 모델을 개발했으며, Gemini 1.5 Pro 모델이 1샷(one-shot) 학습 방식으로 높은 분류 성능을 보였다고 밝혔다.
이와 같은 분석은 대형 언어 모델이 언제 정답을 ‘알아야’ 하며, 언제는 ‘모른다’고 말해야 하는지를 구분하는 훈련 과정의 기반이 된다. 이러한 기준을 반영한 새로운 프레임워크인 ‘선택적 생성(selective generation)’도 동시에 제안됐다. 이는 주 모델에 앞서 개입 모델이 먼저 문맥 상태를 평가하고, 답변 여부를 결정하는 방식으로, 응답 정확도를 개선하면서도 불필요한 무응답을 최소화하는 균형점을 제공한다.
연구는 다양한 모델과 데이터셋에 이 프레임워크를 적용해 Gemini와 GPT를 포함한 여러 모델에서 2~10%에 이르는 응답 정답률 향상을 확인했다. 특히 고객지원 챗봇과 같은 실제 사례에서, 프로모션과 관련된 문서가 오래되었거나 불완전한 경우에는 애매모호한 답을 줄이기보다 ‘추가 정보가 필요하다’는 방식의 회피 응답이 더 적절하다는 점도 함께 강조됐다.
그럼에도 불구하고 일부 모델은 여전히 문맥이 부족한 상태에서도 정답을 답하는 경우가 있었다. 연구진은 이것이 모델의 사전 지식 외에도, 문맥이 질문의 모호성을 줄이거나 기존 지식을 연결하는 역할을 한 결과일 수 있다고 분석했다. 이는 LLM이 반드시 문맥의 세부 내용을 정확히 암기하지 않더라도, 문맥에 의해 추론 능력이 강화될 수 있음을 시사한다.
이에 따라 연구진은 모델이 취약한 문맥 상황에서 ‘모른다’고 말하도록 학습시키는 방식도 시도했다. 하지만 이 역시 답변 정확도는 향상됐으나, 여전히 할루시네이션(환각 생성) 비율이 높은 문제가 나타났다. 결국 단순 미세조정보다는 더 정교한 전략이 필요하다는 결론에 도달했다.
엔터프라이즈 AI를 개발하는 기업에게 이 연구는 실질적인 지침을 제공한다. 연구 공동저자인 구글의 시러스 라슈치안은 우선 실제 문맥-질문 쌍을 수집하고, 이를 ‘충분함 여부’로 분류하는 오토레이팅 과정부터 시작할 것을 제안했다. 그는 “문맥의 충분도 비율이 80~90% 이하라면 검색 시스템 자체에 개선 여지가 많다는 뜻”이라며, 이 정보를 기반으로 한 계층적 평가가 성능 저해 요인의 정밀 진단으로 이어질 수 있다고 조언했다.
또한 라슈치안은 실제 시스템 적용에서는 LLM 기반 분류기의 연산 비용이 문제될 수 있지만, 분석 목적의 작은 테스트셋이라면 비용 부담이 크지 않다고 덧붙였다. 실시간 대응이 필요한 경우라면 휴리스틱 기반 접근 또는 소형 모델을 활용하는 것이 적절하다고 설명했다. 무엇보다 그는 “단순한 유사도 점수 외에도 새로운 신호가 들어올 수 있어야 한다”며, 충분한 문맥 개념이 AI 응답 품질 향상의 중요한 분기점이 될 것이라고 강조했다.