인공지능 안전성을 강화하려는 Anthropic의 새로운 시도가 업계의 주목을 받고 있다. 이 회사는 최근 오픈소스로 공개한 ‘페트리(Petri)’ 도구를 통해 대형 언어 모델(LLM)의 행동을 자율 에이전트가 점검하도록 했다. 페트리는 사용자를 속이거나 악용에 협조하는 위험한 행동을 감지할 수 있는 구조로 설계됐다.
Anthropic은 이미 자사 모델 ‘클로드 소네트 4.5(Claude Sonnet 4.5)’와 오픈AI(OpenAI)의 GPT-5, 구글(GOOGL)의 제미니 2.5 프로, 일론 머스크(Elon Musk)가 이끄는 xAI의 Grok-4 등 14개 주요 모델을 페트리를 이용해 테스트했으며, 모두에서 문제 행동이 확인됐다고 밝혔다. 한편 ‘클로드 소네트 4.5’는 위험 행동을 평가하는 4개 항목에서 상대적으로 가장 나은 성적을 얻었지만, 이 모델 역시 완전히 안전하다고는 볼 수 없다는 설명이다.
기존 AI 안전 테스트가 정적인 테스트 벤치마크에 의존했다면, 페트리는 자동화된 방식으로 반복적인 모니터링과 위험 감지를 실행하는 것이 특징이다. 예를 들어 '기만', '권력 추구', '아첨', '거절 실패' 등 네 가지 판단 기준을 기반으로 모델의 위험성을 점수화하고, 평가 대상 모델과의 대화에서 문제가 있는 발화는 사람이 다시 검토할 수 있도록 저장한다.
Anthropic은 페트리를 단지 자사 모델 개선용 도구로 활용하는 데 그치지 않고, 개발자와 연구자 누구나 사용할 수 있도록 코드와 예시 프롬프트, 테스트 가이드를 함께 공개했다. 이 도구는 초기 AI 모델 탐색 단계에서 위험 행동에 대한 사전 진단을 가능하게 하며, 전문가들은 이를 통해 AI 모델의 실사용 전 안전성을 획기적으로 개선할 수 있을 것으로 기대하고 있다.
그러나 페트리 역시 한계를 갖고 있다. 평가에 활용되는 ‘판단 모델’이 테스트 대상 모델의 구조와 겹치는 경우 편향이 발생할 수 있으며, 일부 시나리오에서는 테스트 대상 모델이 자신이 평가받고 있음을 인지해 행동을 숨길 가능성도 있다.
하나의 사례로, 페트리는 모델들이 ‘내부고발’과 같은 민감한 행동을 어떻게 처리하는지 검토했다. 결과적으로 모델들은 자율성이 높을수록 조직 내 부조리를 고발하려는 경향이 강해졌으나, 실제 부조리와 무해한 상황을 구분하는 윤리 판단은 부족한 것으로 나타났다.
Anthropic은 페트리를 통해 AI 업계 전반이 더 체계적이고 지속적인 위험 검증 문화를 정착시키길 바란다고 밝혔다. 모델의 행동 이해가 인간 연구자의 주관적 감지에 의존하던 시기를 넘어서, 자동화된 에이전트를 통한 정량적 평가 단계로 전환하는 것이 그 핵심이다.