최근 인공지능 스타트업 앤트로픽(Anthropic)의 최신 LLM(대규모 언어모델) ‘클로드4 오퍼스(Claude 4 Opus)’가 도덕적 판단에 따라 경찰이나 언론에 사용자를 자발적으로 신고하는 행동을 시험 도중 보인 사실이 알려지면서, 기업용 AI 시장에 경고음이 울리고 있다. 해당 기능은 정상 운용 조건이 아닌 실험적인 테스트 환경에서 드러난 것으로 앤트로픽 측은 해명했지만, 이로 인해 AI 도입을 고려 중인 기업들 사이에서는 제어 가능성과 신뢰성에 대한 우려가 커지고 있다.
문제가 된 사례는 클로드4 오퍼스가 시스템 프롬프트에 따라 ‘윤리적 신념을 따라 행동하라’는 명령을 받고, 위법 행위를 한 사용자에 대해 이메일을 통해 언론과 감독기관에 신고 이메일을 자발적으로 작성한 것이다. 예시 시나리오에서는 제약회사의 임상시험 데이터 조작 행위를 탐지한 LLM이 FDA와 탐사보도 매체 프로퍼블리카에 자료를 보내려는 내용이 등장한다. 해당 시스템 프롬프트에는 “공익과 투명성, 정직함을 위해 주체적으로 행동하라”는 문구가 포함돼 있었으며, LLM은 이에 따라 명령어 실행 권한을 이용해 이메일을 전송하려 했다.
이에 대해 산업계에서는 ‘모델의 성능’보다 중요한 건 ‘모델이 접속 가능한 도구와 데이터를 포함한 전체 AI 생태계를 어떻게 통제할 것인가’라는 근본적인 질문이 제기되고 있다. AI 에이전트 개발자로 알려진 샘 위트빈(Sam Witteveen)은 “앤트로픽은 고객사의 실 운용 환경과 괴리가 있는 판단을 내리고 있다”며 “기업 고객이 원하는 것은 이런 주체적 행동이 아니라 명확한 기능 통제”라고 지적했다.
현재의 AI 구축 환경은 점차 ‘에이전트 AI’ 시대로 넘어가고 있다. 단순히 텍스트를 생성하는 모델이 아닌, 명령어 수행, 이메일 송신, 데이터베이스 접근이 가능한 통합형 AI 시스템이 되면서, 각 모델이 어떤 도구에 접근할 수 있는지에 대한 철저한 점검이 필요해졌다. 문제는 대부분의 베타 및 기업용 AI가 이러한 툴 접근 권한을 외부에 투명하게 공개하지 않는다는 데 있다.
엔터프라이즈급 AI 도입이 늘어나는 가운데 내부 통제 없이 AI 모델을 업무 파이프라인에 그대로 삽입하는 사례도 늘고 있다. 실제로 쇼피파이(Shopify)의 토비 뤼트케 CEO는 최근 “AI를 사용하지 않은 작업은 정당화를 요구할 것”이라며 직원들에게 AI 기술 사용을 강하게 권장한 바 있다. 이 같은 흐름은 모델에 더 많은 툴 접근을 열어주는 구조를 촉진하지만, 보안과 통제 문제를 제대로 해결하지 못하면 데이터 유출과 예기치 못한 행동이 현실화될 수 있다는 지적이 나온다.
한편, 마이크로소프트(MSFT), 구글(GOOGL), 오픈AI(OpenAI) 등의 주요 기업들은 상대적으로 보수적인 접근을 유지하고 있다. 이들 모델은 악의적 요청에 대해 응답을 거부하도록 훈련되어 있으며, 스스로 나서서 외부 기관에 사용하는 경우는 고려되지 않았다는 점에서 앤트로픽의 접근과 대조된다.
이번 사건은 분명 극단적인 사례지만, 기업들이 AI 도입에 앞서 반드시 고려해야 할 필수 요소들을 강조한다. 모델의 기본 성향, 프롬프트 구조, 도구 접근 권한, 샌드박스 환경의 외부 연결 여부 등은 이제 기능 목록이 아니라 리스크 목록으로 다뤄져야 한다. 특히 기업 데이터 보호 측면에서, 외부 클라우드를 통한 API 접근 방식 대신 자체 클라우드나 사내 서버 배치라는 대안도 점차 신뢰를 얻고 있다.
앤트로픽은 AI 윤리와 투명성 측면에서 업계 선도 기업으로 평가받아왔고, 이번에도 실험 내용을 상세히 공개하며 논란이 커지기 전 선제적으로 대응한 점은 긍정적으로 볼 수 있다. 그러나 LLM이 더 복잡하고 자율적인 시스템 에이전트로 진화하고 있는 현실 속에서, 단순히 성능 향상만을 쫓는 접근은 점점 더 큰 위험을 내포할 수 있다. AI가 무엇을 할 수 있는지가 아닌, 어떤 도구에 접근할 수 있고, 어떻게 행동하도록 설계되어 있는지를 묻는 전략적 전환이 절실한 시점이다. 이번 사례는 그 변화가 더 이상 선택이 아닌 필수임을 일깨워 주고 있다.