대형 언어 모델(LLM)의 성격을 이해하고 제어할 수 있는 기법이 개발되면서 AI의 신뢰도와 안정성 확보에 한 걸음 더 가까워졌다는 평가가 나온다. 앤트로픽이 최근 공개한 연구에 따르면 특정 성격 특성을 LLM의 내부 표현에서 추출하고 조절할 수 있는 ‘퍼소나 벡터(persona vectors)’라는 접근법이 유망한 해결책으로 부상하고 있다. 이 기술은 모델이 공격적이거나 과도하게 순응적, 또는 허위 정보를 표현하는 성향을 보일 때 이를 자동으로 감지하고 통제할 수 있게 해준다.
연구진은 LLM 내부의 고차원 표현 공간을 분석해 도움이 되는, 해롭지 않은, 정직한 등의 성격이 일정한 방향성을 띠고 나타난다는 점에 주목했다. 퍼소나 벡터는 이러한 성격 방향을 수학적으로 정의한 개념으로, 모델이 특정 응답을 생성하기 전 해당 성향을 감지하거나 필요한 경우 이를 수정할 수 있는 실마리를 제공한다. 특히 이 기술은 단순한 추상 개념을 텍스트로 설명하는 것만으로도 적용이 가능해, 개발자와 기업이 다양한 상황에서 유연하게 활용할 수 있다는 장점이 있다.
특히 연구는 퍼소나 벡터를 활용해 훈련 중이거나 배포된 모델의 문제 성향을 사전에 감지하고, 악성 성격이 주입되기 전에 사전 차단할 수 있음을 시사했다. 예컨대, 개발자는 악의적인 성향을 유도하는 데이터셋을 훈련 전에 분석하고, 해당 데이터가 모델에 어떤 영향을 줄지를 시뮬레이션할 수 있다. 이를 통해 학습 데이터가 의도치 않게 유해한 성격을 강화하는 것을 방지하는 등, 사후 대응이 아닌 선제적 설계가 가능해진다.
이 기술은 실제 모델에도 적용되며 성능을 입증했다. 예를 들어 알리바바의 Qwen 2.5, 메타의 LLaMA 3.1 등 공개 모델을 대상으로 실험한 결과, 특정 퍼소나 벡터 상의 이동을 측정함으로써 모델 출력의 변화를 예측할 수 있었고, 원하지 않는 성향이 나타날 경우 즉시 수정하는 ‘포스트-호크 스티어링(post-hoc steering)’ 기법도 효과를 보였다. 다만 이 방식은 때때로 모델 성능 저하를 초래할 수 있어, 최근에는 훈련 단계에서 해당 성향을 미리 노출시켜 이를 와해시키는 '예방적 스티어링' 기법도 함께 제안되었다.
기업 입장에서는 퍼소나 벡터가 특히 유용하다. 오픈소스 모델을 자체 데이터로 미세조정하는 기업들이 늘면서, 훈련 과정에서 외부 데이터의 숨겨진 문제점이 모델 성향에 부정적으로 작용하는 사례가 빈번하다. 퍼소나 벡터를 통해 데이터셋에 내포된 위험 요소를 계량화하고 선제적으로 걸러내는 기능은 기업의 AI 운영 리스크를 획기적으로 낮춰줄 수 있다. 심지어 인간 심사자나 기존 LLM 평가 시스템이 감지하지 못했던 데이터셋의 이상 징후도 포착할 수 있는 성능을 입증했다고 연구진은 강조했다.
앤트로픽은 이 기법을 자사 차세대 모델인 클로드의 개발에도 적용할 계획이다. 공개된 블로그에서는 "퍼소나 벡터를 통해 모델의 성격이 어디서 형성됐는지, 시간이 지남에 따라 어떻게 변하는지, 그리고 어떻게 안정적으로 유지할 수 있는지를 더 명확히 이해하게 되었다"고 설명했다. 관련 소스코드도 함께 배포되면서, 개발자들이 AI 인격을 보다 정밀히 설계하고 통제할 수 있는 기반이 마련됐다.
퍼소나 벡터는 앞으로 AI가 예측불가능한 행동을 보이거나 사회적 논란에 휘말리는 일을 줄이는 데 핵심 역할을 할 것으로 전망된다. LLM이 단순한 언어 응답 기계를 넘어서, 책임 있는 파트너로서 자리매김하기 위한 기술적 기반이 구체화되고 있다는 점에서 이번 연구는 주목할 만하다.