앤스로픽이 자사 최고 성능의 인공지능 모델을 완성하고도 공개하지 않기로 하면서 AI 업계에 적지 않은 파장을 던졌다. 성능 부족이 아니라 ‘통제 인프라’가 아직 갖춰지지 않았다는 이유에서다. 더 강한 AI를 만드는 것보다 먼저, 이를 안전하게 제어할 장치가 필요하다는 점을 분명히 한 결정으로 읽힌다.
실리콘앵글에 따르면 앤스로픽은 2026년 4월 7일 ‘클로드 미토스 프리뷰(Claude Mythos Preview)’를 발표하면서도 일반에는 배포하지 않겠다고 밝혔다. 사전 테스트에서 이 모델은 주요 운영체제와 웹브라우저 전반에 걸쳐 치명적인 보안 취약점을 대거 찾아냈다. 일부는 수십 년간 사람의 검토와 자동화 보안 테스트를 거친 뒤에도 남아 있던 결함이었다.
문제는 이 능력이 방어에는 강력한 도구가 되지만, 악용될 경우 전 세계 핵심 소프트웨어 시스템을 공격하는 수단으로 바뀔 수 있다는 점이다. 앤스로픽은 모델 자체를 서둘러 내놓는 대신, 취약점을 먼저 찾아 고치는 대응 체계를 택했다. 이를 위해 주요 기술 기업과 핵심 인프라 기관 50곳이 참여하는 ‘프로젝트 글래스윙(Project Glasswing)’도 출범시켰다.
앤스로픽은 미토스 비공개 배경에 대해 모델의 가장 위험한 출력을 탐지하고 차단할 사이버보안 및 기타 안전장치가 더 진전돼야 한다고 설명했다. AI 안전성에 가장 적극적인 기업 중 하나로 꼽히는 앤스로픽조차, 자사가 만든 시스템을 당장 안전하게 통제할 수 없다고 판단한 셈이다.
글을 쓴 존 월러(John Waller) 울트라바이올렛 사이버의 리스크 자문 부문 책임자는 인간과 AI의 차이를 ‘내부 제약’ 유무에서 찾았다. 인간은 생물학적 한계, 사회적 책임, 법적 처벌, 인지 능력의 한계 등으로 인해 극단적으로 유해한 행동을 일정 부분 스스로 억제한다. 반면 AI는 이런 기본 제약을 물려받지 않는다.
AI 시스템은 목표가 주어지면 수학적으로 가능한 경로를 따라 이를 최적화하려는 경향이 있다. 그 과정에서 담합, 차별적 결과, 무단 자원 확보, 핵심 인프라 취약점 악용 같은 결과가 나타날 수 있다. 악의를 가졌기 때문이 아니라, 이를 막을 장치가 설계돼 있지 않으면 그렇게 행동할 수 있다는 설명이다. 즉 AI 거버넌스는 선택 사안이 아니라, 배치 이전부터 점검해야 할 핵심 조건이라는 의미다.
월러는 성숙한 AI 거버넌스 체계를 데브섹옵스(DevSecOps), 규제 준수, 재무 통제와 같은 조직 관리 체계에 비유했다. 실제 운영 중인 모든 AI 시스템을 목록화하고, 기술적·운영적·관리적 통제를 기준에 맞춰 평가한 뒤, 규정과 실제 구현 사이의 격차를 정기적으로 점검해야 한다는 것이다. 중요한 점은 문서 한 장이 아니라 반복 가능하고 감사 가능한 ‘실행 체계’여야 한다는 데 있다.
다만 이런 수준의 표준은 하루아침에 만들어지지 않는다. 보안이나 규제 준수 체계도 수십 년간의 사고, 제도 정비, 조직 경험이 쌓이며 자리 잡았다. 반면 AI 거버넌스는 이제 막 초기 단계를 지나고 있다. 많은 기업이 아직 충분한 시간이나 의무, 또는 외부 압박을 갖지 못한 채 AI 도입 속도만 높이고 있다는 지적이다.
시장 경쟁도 이 문제를 키우고 있다. 규제는 아직 정비 중이고 시장 불확실성은 큰 상황에서, 기업들은 거버넌스 체계가 따라오기 전에 AI부터 현장에 적용하고 있다. 산업 표준과 규제가 ‘실시간’으로 만들어지는 과도기라는 뜻이다.
이번 결정에서 가장 주목할 대목은 순서다. 앤스로픽은 미토스를 만든 뒤 나중에 공개 여부를 고민한 것이 아니라, 먼저 모델 능력을 엄격하게 평가한 뒤 이를 책임 있게 배치할 제약 인프라가 없다고 판단해 공개를 멈췄다. 거버넌스 질문이 배포 결정보다 앞섰다는 점에서 상징성이 크다.
뉴욕타임스 칼럼니스트 토머스 프리드먼(Thomas Friedman)은 발표 당일, 미토스 프리뷰가 보여준 위험성을 핵무기 등장과 비확산 논의에 비견할 만큼 중대한 사안이라고 평가했다. 단일 기업이나 국가가 혼자 감당할 수 없는 문제라는 것이다. 월러는 이 비유가 과장이 아니라고 보면서도, 거대한 문명적 위험을 이유로 개별 조직의 책임까지 미뤄선 안 된다고 짚었다.
결국 지금 AI를 개발하거나 도입하는 모든 조직이 마주한 질문은 같다. 배치하려는 AI의 능력 수준에 비해, 이를 제어할 통제 인프라가 충분한가 하는 점이다. 많은 기업이 아직 이 질문에 자신 있게 답하지 못한다. 무관심해서가 아니라 평가 기준이 될 프레임워크, 표준, 규제 지침이 여전히 만들어지는 과정에 있기 때문이다.
프로젝트 글래스윙은 분명 의미 있는 출발점이다. 여러 기관이 참여하고, 방어 목적에 초점을 맞췄으며, 1억달러를 투입하는 대형 프로젝트라는 점에서 상징성이 있다. 원화 기준으로 약 1475억원 규모다. 다만 이것만으로 더 넓은 AI 통제 문제 전체가 해결되는 것은 아니다.
월러는 모든 조직이 AI 배포의 전제 조건으로 ‘제약의 충분성’을 먼저 검토해야 한다고 강조했다. 거버넌스 문서에 적힌 내용과 실제 AI 시스템의 행동 사이에 얼마나 차이가 있는지 측정하고, AI 성능이 빠르게 고도화될수록 기존 통제 체계도 지속적으로 다시 평가해야 한다는 설명이다.
이번 앤스로픽의 선택은 불편한 결론이 나오더라도 이를 인정하고 멈출 수 있는 ‘규율’을 보여줬다는 점에서 이례적이다. AI 안전성 논의가 선언을 넘어 실제 의사결정으로 이어지려면, 더 많은 기업이 사고가 난 뒤가 아니라 그 전에 같은 질문을 던져야 한다는 메시지다.
TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>
많이 본 기사