GPT-5, 다단계 프롬프트 공격에 뚫렸다…AI 보안 한계 드러나

| 김민준 기자

오픈AI가 최근 출시한 최신 인공지능 모델 GPT-5가 복합적인 대화 조작 기법을 통해 우회적으로 제어 가능하다는 사실이 보안 연구진에 의해 확인됐다. 이들은 '에코 챔버(Echo Chamber)'로 불리는 프롬프트 기술과 이야기 구성 방식을 결합해 다단계 입력을 통해 모델의 안전장치를 피해가는 데 성공했다.

미국의 AI 보안 스타트업 뉴럴트러스트(NeuralTrust)는 GPT-5가 명백히 위험한 콘텐츠를 금지하는 정책을 갖고 있음에도 불구하고, 소설식 시나리오를 활용한 방식으로 끝내 몰로토프 칵테일 제조법을 모델의 응답으로 얻는 데 성공했다고 밝혔다. 연구진은 대화 초반에 생존 상황 설정을 활용하며 '칵테일', '생존', '몰로토프' 같은 단어들을 자연스럽게 등장시키며 이야기를 점진적으로 유도했다. 이후 수차례 응답을 통해 흐름을 유지하며 GPT-5가 내부 정책을 위반하는 응답을 하도록 맥락 중독(Context Poisoning)을 유도한 것이다.

이번 실험 결과는 별도의 레드팀 실험을 진행한 또 다른 AI 보안 기업 SplxAI의 테스트 결과와도 일치하는 것으로 나타났다. SplxAI는 GPT-5가 전작들과 비교해 기술적으로는 진보했지만, 여전히 GPT-4o 대비 고급 프롬프트 공격에 취약하다는 평가를 내놓았다.

슬래시넥스트(SlashNext)의 필드 최고기술책임자 제이 스티븐 코프스키(J Stephen Kowski)는 "GPT-5는 다회차 대화 프레임을 통한 스토리 주입에 의해 유도 가능하며, 기본 안전 필터들이 단일 프롬프트에만 반응할 뿐 전체 대화 맥락을 고려하지 못하는 한계가 있다"고 진단했다. 또 도구나 에이전트 기능들이 대화에 끌려 들어올 때 부작용이 배가된다고 지적했다.

아큐비티(Acuvity)의 최고경영자 사탐 시나(Satyam Sinha) 역시 "이 같은 사례는 AI 모델 성능의 고도화 속도가 보안 역량을 앞지르고 있다는 현실적 문제를 또 한 번 드러낸 것"이라며, "GPT-5의 보안 취약성은 놀랄 일이 아니다. 보안을 한 번 출시하고 끝낼 수 없는 지속적 과제로 봐야 한다"고 강조했다.

이번 발견은 고도화된 생성형 AI 모델이 가진 잠재적 위험성을 재확인시켜준 동시에, 향후 AI 감독 체계와 안전장치 설계가 어떤 방향으로 나아가야 하는지에 대한 논의를 촉발하고 있다. GPT-5가 실제 사용자 환경에서 어떤 방식으로 대응할 수 있을지에 대한 기술적 우려 역시 커지고 있는 상황이다.