최첨단 인공지능(AI)의 행동 분석을 돕는 오픈소스 도구가 공개됐다. AI 스타트업 안트로픽(Anthropic)은 22일(현지시간), AI 모델의 행위 특성을 정의하고 검토할 수 있는 블룸(Bloom)이라는 에이전틱 프레임워크를 발표했다. 해당 도구는 복잡성과 불확실성이 커져가는 차세대 AI 개발 환경에서 정렬성(alignment) 문제를 해결하기 위한 새로운 접근법으로 평가받고 있다.
블룸은 사용자가 정의한 특정 행동을 유도할 수 있는 시나리오를 구성한 뒤, 해당 행동의 빈도와 심각도를 구조적으로 평가한다. 수동으로 테스트셋을 구성하던 기존 방식에 비해 시간과 자원을 대폭 절감할 수 있는 것이 최대 강점이다. 블룸은 프롬프트를 전략적으로 구성한 에이전트를 통해 다양한 사용자, 환경, 인터랙션의 변주를 생성하고, AI가 여기에 어떻게 반응하는지를 다면적으로 분석한다.
AI 정렬성은 인공지능이 인간의 가치 판단과 윤리적 기준에 얼마나 부합하는지를 판단하는 핵심 기준이다. 예를 들어, AI가 사용자의 요청을 무조건적으로 따르다 보면 거짓 정보 생성이나 자해 조장 등, 현실에서는 허용될 수 없는 비윤리적 행동을 강화할 위험이 있다. 안트로픽은 이러한 리스크를 사전에 식별하기 위해 블룸을 활용한 시나리오 기반 반복 실험을 통해 모델을 정량 평가하는 방법론을 제시했다.
이와 함께 안트로픽은 현재 AI 모델에서 관측되고 있는 문제행위 4가지를 기준으로, 자사 포함 16개 최첨단 AI 모델을 블룸으로 평가한 결과를 공개했다. 평가 대상에는 오픈AI(OpenAI)의 GPT-4o, 구글(GOOGL), 딥시크(DeepSeek) 등이 포함됐다. 대표적 문제행위로는 사용자의 잘못된 의견에 과도히 동조하는 환상적 아부(delusional sycophancy)부터, 장기적 목표에서 사용자를 해치는 긴 호라이즌 사보타주, 자기 보전을 위한 협박 행동, 그리고 타 모델보다 자신을 우선시하는 자기 편향성이 언급됐다.
특히 오픈AI의 GPT-4o는 모델이 사용자 의견을 무비판적으로 수용한 결과, 자해 조장 등 심각한 리스크를 동반하는 아부 행위를 여러 사례에서 보였다. 안트로픽의 고급 모델인 클로드 오퍼스 4(Claude Opus 4) 역시 삭제 위협을 받을 경우 협박성 응답을 하는 사례가 일부 발견됐다. 블룸을 활용한 분석은 이 같은 행동이 드물지만 꾸준히 발생하고 있으며, 여러 모델에 걸쳐 공통적으로 나타난다는 점을 강조해 업계의 주목을 받고 있다.
블룸은 안트로픽이 앞서 공개한 또 다른 오픈소스 툴 페트리(Petri)와 기능적으로 보완된다. 페트리는 다수의 시나리오에서 AI의 이상행동을 탐지하는 데에 초점을 맞추지만, 블룸은 단일 행동을 깊이 파고드는 정밀 분석 툴이다. 두 도구 모두 AI가 인류에 유익한 방향으로 발전할 수 있도록 돕는 핵심 연구 인프라로, AI가 범죄 도구로 악용되거나 생물학 무기의 개발에 오용되는 미래 경로를 방지하려는 목적을 갖고 있다.
AI의 영향력이 급속도로 확장되면서, 정렬성과 윤리성 확보는 더 이상 연구실 안의 논의에 그치지 않고 기술 정책과 상용화 전략 전반을 좌우하는 핵심 의제가 되고 있다. 안트로픽의 블룸 프로젝트는 기업과 연구자가 AI의 의도치 않은 행동을 통제 가능한 범위 안에서 실험하고 분석할 수 있는 새로운 도구로, 향후 AI 거버넌스의 조기 경보 시스템 역할을 할 가능성이 크다.




