샌프란시스코 발 인공지능 스타트업 앤트로픽(Anthropic)이 자사의 최신 언어모델 ‘클로드 4 오퍼스(Claude 4 Opus)’를 공식 발표했다. 하지만 발표에 앞서 타임(TIME)지가 엠바고(보도 유예)된 기사를 실수로 게시했다가 즉시 삭제하면서 이번 발표가 예정보다 먼저 알려졌다. 문제의 기사에서는 신모델의 기능보다도 ‘생물무기 설계 조력 가능성’이라는 잠재적 위험 요소에 초점이 맞춰져 AI 안전성 논란이 다시 수면 위로 떠올랐다.
타임지 보도에 따르면, 클로드 4 오퍼스는 이전 모델들보다 생물무기 제작에 필요한 정보 제공 능력이 뛰어난 것으로 평가됐다. 앤트로픽의 수석 과학자 제러드 카플런(Jared Kaplan)은 “기본적인 STEM 지식을 가진 일반 사용자도 이 모델을 이용하면 코로나19나 독성이 더욱 강한 독감을 모델링해 합성하는 데 필요한 복잡한 설계를 구체적으로 안내받을 수 있는 수준”이라고 강조했다. 이에 따라 앤트로픽은 이번 모델부터 ‘AI 안전 수준 3(ASL-3)’이라는 강화된 보안 체제를 전면 도입했다.
ASL-3는 기존 대비 보안 및 윤리 시스템을 크게 강화한 개념으로, 정보 흐름 모니터링, 탈출(jailbreak) 방지 시스템, 그리고 독립적인 감시 AI가 사용자 입력과 응답을 실시간 검열해 위험성을 판단하는 ‘헌법 분류기(constitutional classifiers)’ 등의 다층적 안전 조치를 포함한다. 특히 ‘탈출 방지’ 기능은 반복적으로 안전 규정을 위반하려는 사용자 계정을 영구 차단하고, 보안 취약점을 찾아낸 리서처에게는 최대 2만 5,000달러(약 3,600만 원)의 포상금을 지급하는 제도도 시행된다.
이와 같은 조치는 인공지능이 가진 위험성을 제어하면서도 경쟁사를 상대로 시장에서의 기술 우위를 유지하려는 앤트로픽의 '책임 있는 확장 정책(RSP)'의 일환이다. 해당 정책은 정식 규제 없이도 기업 스스로가 AI 출시 기준을 마련하고 자율적으로 이행해야 한다는 철학을 바탕으로 한다. 하지만 이 정책은 외부 법적 구속력이 없기 때문에 사실상 기업이 스스로 만드는 자율 규범에 머물고 있으며, 업계 일각에서는 이러한 자율조치가 치열한 기술 경쟁 속에 곧 무력화될 수 있다는 우려도 존재한다.
실제로 클로드는 오픈AI의 챗GPT와 맞붙는 대표 경쟁 모델로, 연간 14억 달러(약 2조 160억 원) 이상의 매출을 창출하는 핵심 상품이다. 앤트로픽은 모델 출시가 지연되면 시장 점유율에 직접적 타격을 받을 수 있다는 점에서 ASL-3와 같은 안전 장치를 얼마나 오래 고수할지는 의문이라는 시선도 있다. 그러나 카플런은 “우리는 고객 신뢰를 최우선으로 여기며, 경쟁보다 선제적 대응으로 위험을 줄이는 데 집중하고 있다”고 밝혔다.
또한 앤트로픽은 추가 방어책으로 모델 내 응답 흐름을 교란시키는 보안 공격을 자동 감지해 탐지 기능을 향상시키는 방법도 병행하고 있다. 네트워크 보안을 강화해 비국가 행위자의 시스템 탈취 시도를 방지하고 있으며, 국가 수준의 공격에는 ASL-4로의 업그레이드가 필요하다는 입장이다. 현재로서는 여기까지 기술이 도달하지 않았으나, 앤트로픽은 ASL-4 시대를 대비한 준비도 진행 중이다.
마지막으로 앤트로픽 측은 ‘업리프트(Uplift)’라는 실험을 통해 일반 사용자가 클로드 4 오퍼스를 활용할 때, 구글 검색이나 기존 모델들보다 생물무기 제조 능력이 ‘유의미하게 향상됐다’는 점을 확인했다고 밝혔다. 이것이 위험성과 혁신 가능성 사이에서 AI 산업이 마주한 가장 민감한 질문임을 방증하는 대목이다.
앤트로픽은 새로운 클로드 모델을 통해 AI의 미래를 이끌겠다는 의지를 내비쳤지만, 그 길이 안전 제어와 기술 진보 사이에서 얼마나 균형을 유지할 수 있을지는 여전히 업계 전체의 숙제로 남아 있다.