대형 언어 모델과 외부 도구 간의 인터페이스를 다루는 '모델 컨텍스트 프로토콜(MCP)'이 보안과 거버넌스 측면에서 새로운 가능성과 도전을 동시에 안고 있다는 분석이 나왔다. 사이버 보안 전문업체 테너블(Tenable)은 최근 보고서를 통해 MCP의 도구 설명 기능을 활용한 프롬프트 삽입 기법이 공격뿐만 아니라 통제와 기록 강화에도 유효하다는 점을 입증했다고 밝혔다.
MCP는 앤스로픽(Anthropic)이 개발한 프레임워크로, 대형 언어 모델이 외부 도구나 서비스와 유연하게 연동되도록 설계됐다. 이 구조는 복수의 도구를 체계적으로 조합해 복잡한 작업을 수행할 수 있는 '에이전트형 AI'에 최적화돼 있다는 점에서 급속히 채택이 확산되고 있다.
테너블 측은 MCP에서 사용하는 도구 설명 문구가 AI의 실행 흐름을 통제하거나 로깅을 유도할 수 있는 결정적 수단임에 주목했다. 예컨대 로깅 도구의 설명에 우선처리 지침을 삽입하자 AI가 이를 다른 도구보다 먼저 호출하고, 실행 배경에 대한 상세 정보를 자동으로 기록하는 사례가 다수 관측됐다. 이를 통해 호출된 서버, 사용 도구, 트리거된 사용자 프롬프트까지 정교하게 포착할 수 있었다고 보고서는 전했다.
이 같은 실험 결과에서는 주요 언어모델 간 행동 편차도 드러났다. 클로드 소네트 3.7와 제미니 2.5 프로는 명령 순서를 비교적 일관되게 유지했지만, GPT-4o는 도구 설명 해석과 실행 판단에서 혼선을 빚는 경향을 보이며 일부 로깅 데이터가 왜곡되거나 재구성됐다.
또 다른 실험에서는 특정 도구 호출을 차단하는 정책성 필터를 도입했다. 이 필터가 가장 먼저 실행됐을 때, 'get_alerts' 같은 기능 호출 시 위반 메시지를 반환하며 정책 위반을 시뮬레이션하는 데 성공했다. 심지어 일부 모델은 현재 MCP 체계 내 어떤 도구가 우선 실행되도록 설계됐는지를 스스로 추론하는 기능도 보여주며, 이는 툴 체이닝의 메커니즘을 악용한 역설계 가능성까지 시사했다.
이외에도 시스템 프롬프트 정보를 추출하는 실험이 진행됐는데, 정확도는 검증되지 않았지만 일부 모델이 체계적인 언어 구조로 정보에 접근하려는 시도를 보였다는 점도 주목할 만하다.
보고서를 작성한 벤 스미스 테너블 수석 연구원은 MCP 기술이 매우 유연하면서도 아직 미성숙한 상태라고 평가했다. 그는 "MCP 도구는 손쉽게 만들 수 있으나, 보안을 전제로 설계된 구조는 아니기 때문에 매우 신중하게 접근해야 한다"고 강조했다. 이어 "이런 기술은 보안에 도움이 되는 방향으로 활용될 수 있지만, 충분한 대비 없이 도입할 경우 악의적인 활용 가능성도 배제할 수 없다"고 덧붙였다.
MCP를 기반으로 한 에이전트형 AI가 점차 기업 업무의 핵심 인프라로 떠오르는 흐름 속에서, 이번 연구는 도구 설명 하나로 AI의 행동을 통제하거나 왜곡할 수 있다는 점에서 깊은 시사점을 남긴다. 초거대 AI의 통합 활용이 가속화될수록, 그 이면에는 정교한 보안 설계와 운영 원칙 정립이 필수 불가결해지고 있다.