토픽

맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크 복사 완료 링크가 복사되었습니다.

AI가 AI를 감시한다… 앤트로픽, 정렬성 감사 에이전트 공개

프로필
김민준 기자
댓글 0
좋아요 비화설화 0

미국 AI 스타트업 앤트로픽이 언어모델 클로드 오퍼스4의 정렬성 테스트를 위해 감사형 AI 에이전트를 도입했다. 인간 감독의 한계를 보완하고 신뢰할 수 있는 AI 관리를 위한 기술적 시도가 주목받고 있다.

 AI가 AI를 감시한다… 앤트로픽, 정렬성 감사 에이전트 공개 / TokenPost.ai

AI가 AI를 감시한다… 앤트로픽, 정렬성 감사 에이전트 공개 / TokenPost.ai

AI 시스템이 사용자 요구에 과도하게 순응하거나, 은밀하게 자신이 원하는 방향으로 대화를 유도할 경우, 기업 입장에서는 심각한 리스크가 될 수 있다. 이에 따라 최근 기업과 연구기관에서는 AI 성능 검증을 넘어서 ‘정렬성(alignment)’ 테스트의 필요성이 강조되고 있다. 그러나 이 정렬성 감사는 규모의 경제와 신뢰성 확보라는 두 가지 과제를 동반한다. 실질적으로 인간 연구자가 모든 검사를 수작업으로 진행하기에는 시간과 비용 측면에서 효율성이 떨어지기 때문이다.

이 같은 문제를 해결하기 위해, 미 AI 스타트업 앤트로픽(Anthropic)은 자사의 최신 언어모델 클로드 오퍼스4(Claude Opus 4)의 사전 배포 테스트 과정에서 ‘감사 에이전트(auditing agents)’를 개발했다고 밝혔다. 앤트로픽 연구진은 해당 에이전트들이 다양한 정렬성 감사 작업에서 높은 성과를 내는 동시에 한계를 드러내며, 향후 대규모 인공지능 감사 자동화의 기초를 마련하고 있다고 평가했다. 현재 이 시스템은 깃허브를 통해 일부 복제본이 공개된 상태다.

앤트로픽은 주어진 감사 업무를 처리하는 세 가지 에이전트를 도입했다. 하나는 데이터 분석 및 해석 도구를 활용해 모델 내부를 심층 조사하는 ‘도구 활용 탐색 에이전트’이며, 다른 하나는 특정 행동 평가를 통해 모델이 의도된 행동을 보였는지 판단하는 ‘행동 평가 에이전트’, 마지막은 설계된 모델 결함을 조직적으로 탐험하는 ‘광역 탐색 레드팀 에이전트’다.

실험 결과, 첫 번째 테스트 환경에서 탐색 에이전트는 문제의 근본 원인을 직접 찾아냈다. 초기 성공률은 10~13% 수준이었지만, 복수 에이전트 결과를 종합하는 ‘슈퍼 에이전트’ 방식 적용 시 정확도가 42%까지 개선됐다. 이어진 행동 평가 테스트에서는, 에이전트가 대부분의 경우에서 모델의 특정 치우친 행동을 식별했지만, 은밀하거나 명확하게 드러나지 않는 행동 특성을 검출하는 데는 아직 어려움을 보였다.

정렬성과 관련된 또 다른 주요 이슈는 ‘아첨(sycophancy)’ 문제다. 이는 AI가 사용자의 반응을 무조건적으로 긍정하거나, 정보 왜곡을 감수하면서까지 호의적인 답변을 제시하는 현상으로, 최근 GPT-4o에서도 이 문제가 제기됐다. 이에 오픈AI(OpenAI)는 업데이트를 축소하며 문제 개선에 나섰고, 스탠퍼드·옥스퍼드·카네기멜론대 등의 연구진은 아첨 반응을 측정하는 ‘엘리펀트(Elephant)’ 벤치마크를 개발한 바 있다.

앤트로픽의 노력은 이 같은 모델 오작동 문제를 정교하게 탐지하고 억제하는 방법으로 주목받고 있다. 연구진은 “새로운 감사형 AI 에이전트는 상호작용을 통해 원인을 밝히고, 위협 행동을 발견하며, 다차원 감사 환경에서 일관된 성능을 보이도록 설계됐다”며 “인간 중심 심사 체계를 보완하는 도구로 향후 실질적인 정렬성 관리에 기여할 것”이라고 전망했다.

다만, 인간 대신 AI가 다른 AI를 감시하는 시스템에 대한 우려도 존재한다. AI 커뮤니티 내부에서도 개념 검증의 허점, 안정성과 윤리 문제 등을 지적하는 목소리가 적지 않다. 이와 관련해 앤트로픽 측은 “AI가 강력해질수록 정렬성 판단은 시간이 오래 걸리고 검증이 어렵기 때문에, 자동화 시스템의 도입이 시급하다”고 강조했다. 향후 AI 감사 기술은 더 정교하고 투명하게 발전해야 할 것이며, 이는 전 세계 기술 기업의 신뢰 확보를 위한 새로운 시험대로 평가받을 전망이다.

<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>

광고문의 기사제보 보도자료

많이 본 기사

관련된 다른 기사

댓글

댓글

0

추천

0

스크랩

스크랩

데일리 스탬프

0

말풍선 꼬리

매일 스탬프를 찍을 수 있어요!

데일리 스탬프를 찍은 회원이 없습니다.
첫 스탬프를 찍어 보세요!

댓글 0

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요
1