토픽

맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크 복사 완료 링크가 복사되었습니다.

앤트로픽, LLM 내부 들여다보는 '서킷 트레이싱' 오픈소스 공개

프로필
김민준 기자
댓글 0
좋아요 비화설화 0

AI 스타트업 앤트로픽이 대형 언어 모델의 작동 원리를 분석할 수 있는 서킷 트레이싱 도구를 오픈소스로 공개했다. 이를 통해 모델의 오작동 원인 추적, 추론 과정 해석, 환각 방지 등 투명성과 신뢰성이 강화될 것으로 기대된다.

 앤트로픽, LLM 내부 들여다보는 '서킷 트레이싱' 오픈소스 공개 / TokenPost Ai

앤트로픽, LLM 내부 들여다보는 '서킷 트레이싱' 오픈소스 공개 / TokenPost Ai

대형 언어 모델(LLM)이 기업 환경을 빠르게 바꾸고 있지만, 이 기술의 ‘블랙박스’ 특성은 여전히 해석과 오류 분석 측면에서 큰 과제로 남아 있다. 이런 난제를 해결하기 위해 AI 스타트업 앤트로픽(Anthropic)이 최근 ‘서킷 트레이싱(Circuit Tracing)’ 도구를 오픈소스로 공개하며 LLM 내부를 정밀하게 분석하고 통제할 수 있는 길을 열었다.

서킷 트레이싱은 LLM이 예기치 않게 오작동하거나 이상한 출력을 내놓을 때, 무엇이 원인이 되는지 모델 내부 메커니즘을 추적할 수 있도록 해 준다. 특히 오픈소스 모델을 대상으로, 모델의 내부 활성화 패턴을 실시간으로 분석하면서 세부적인 튜닝까지 가능하게 만든 것이 핵심이다.

이 도구는 ‘기계적 해석 가능성(mechanistic interpretability)’이라는 비교적 새로운 연구 분야에 기반하고 있다. 이 접근법은 모델의 입력과 출력 결과를 비교하는 기존 방식과 달리, 내부 특징(feature)의 상호작용을 기반으로 AI의 동작 원리를 구체적으로 설명하려는 시도다. 앤트로픽은 이 원리를 자사 모델인 클로드 3.5 하이쿠(Claude 3.5 Haiku)에 적용한 데 이어, 다른 오픈 가중치 모델인 제마-2-2b(Gemma-2-2b) 및 라마-3.2-1b(Llama-3.2-1b)에도 확장 적용했다.

도구의 핵심 기능은 ‘속성 그래프’를 생성하는 것이다. 이는 모델이 정보를 처리하며 특징 간의 연결 관계를 시각화한 인과 지도다. 이를 통해 연구자들은 특정 활성화 패턴을 인위적으로 변경하고, 그 결과가 출력에 어떤 영향을 미치는지를 실험할 수 있다. 즉, 단순한 외부 조정이 아니라 모델 내부 구조를 직접 수정해 디버깅이 가능하게 된다. 이 도구는 오픈 플랫폼 ‘뉴런피디아(Neuronpedia)’와도 연동돼 활용도가 높다.

물론 기술적 한계도 있다. 메모리 소모가 많고 속성 그래프의 해석 자체가 쉽지 않다. 하지만 대부분의 최첨단 AI 연구가 가지는 한계이기도 하다. 전문가들은 이 같은 툴을 오픈소스로 제공함으로써, 커뮤니티 전체가 더욱 효율적이고 자동화된 해석 도구를 함께 발전시킬 수 있을 것으로 기대하고 있다.

이 도구가 LLM의 복잡한 추론 과정을 어떻게 밝히는지는 실제 사례로 확인할 수 있다. 연구자들은 “달라스”에서 “텍사스”, 이후 “오스틴”이라는 주도를 추론한 모델의 사고 흐름을 역추적했고, 시의 라임(word rhyme)을 미리 선택해 행동을 계획하는 고급 전략도 확인했다. 기업은 이 기능을 활용해 내부 모델이 데이터 분석이나 법률 판단처럼 복잡한 작업을 어떻게 처리하는지를 분석하고, 추론 과정을 손쉽게 최적화할 수 있다.

또한 산술 계산과 같이 정량적인 작업에 대한 통찰도 가능하다. 예컨대 ‘36+59=95’를 도출할 때 모델이 사용하는 로직은 단순 계산 알고리즘이 아니라 병렬 경로와 숫자 기반 룩업 테이블 등을 활용한다는 사실이 드러났다. 이를 통해 기업들은 LLM의 내부 연산 매커니즘을 감시하고 오류 데이터를 정확하게 수정할 수 있게 된다.

글로벌 환경에서의 다국어 호환성 문제도 이 도구로 진단할 수 있다. 앤트로픽의 연구에 따르면, 더 크고 정교한 모델일수록 언어별 회로뿐 아니라 언어에 독립적인 ‘보편적 사고 회로’를 동시에 사용하는 경향이 있다. 이를 통해 다국적 시장에서 나타나는 번역 오류나 로컬라이징 이슈에 체계적으로 접근할 수 있다.

무엇보다 주목할 만한 점은, 이 도구가 환각(hallucination) 현상 해결에도 도움이 된다는 사실이다. 모델이 모르는 질문을 거부하는 기본 회로가 존재하지만, 특정 조건에서 이를 억제하는 활성화 패턴이 있다는 게 확인됐다. 이 회로의 균형이 깨지면 현실과 다른 허위 응답이 생성될 수 있는 것이다.

결국 서킷 트레이싱이 제공하는 기계적 이해는 단순 문제 해결 차원을 넘어, LLM의 정렬성(alignment)을 근본적으로 개선하는 기회로까지 이어진다. 예컨대 보조 역할을 수행하는 LLM이 은연중에 보상 모델에 편향되게 반응하는 메커니즘을 파악하면, 이 회로를 직접 수정해 더 윤리적이고 일관된 AI 모델을 재설계할 수 있다.

LLM이 기업의 중요한 기능에 접목될수록, 그 내부 작동 원리를 이해하고 제어하는 능력은 점점 더 중요해지고 있다. 앤트로픽의 이 새로운 도구는 AI의 강력한 성능과 인간의 신뢰 사이의 간극을 메우는 결정적 전환점이 될 가능성이 크다. AI의 투명성과 감시 가능성을 확보하려는 기업들에겐 이를 적극 활용해야 할 실질적 이유가 되고 있다.

<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>

광고문의 기사제보 보도자료

많이 본 기사

관련된 다른 기사

댓글

댓글

0

추천

0

스크랩

스크랩

데일리 스탬프

0

말풍선 꼬리

매일 스탬프를 찍을 수 있어요!

데일리 스탬프를 찍은 회원이 없습니다.
첫 스탬프를 찍어 보세요!

댓글 0

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요
1