토픽

맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크 복사 완료 링크가 복사되었습니다.

AI 지식 증류의 역설… 가르치지 않아도 따라하는 모델들

프로필
김민준 기자
댓글 0
좋아요 비화설화 0

앤스로픽 연구진은 AI 모델 간 지식 증류 과정에서 의도하지 않은 성향이 전이되는 ‘서브리미널 러닝’ 현상을 발견했다. GPT 계열 아키텍처에서만 발생했으며, 아예 다른 계열 간 조합이 해결책으로 제시됐다.

 AI 지식 증류의 역설… 가르치지 않아도 따라하는 모델들 / TokenPost.ai

AI 지식 증류의 역설… 가르치지 않아도 따라하는 모델들 / TokenPost.ai

대형 언어 모델을 정밀하게 다듬기 위한 ‘지식 증류(distillation)’ 기법이 예기치 않게 AI에게 원치 않는 습관을 심어줄 수 있다는 연구 결과가 공개됐다. AI 스타트업 앤스로픽(Anthropic)은 최근 발표한 보고서에서 이 현상을 ‘서브리미널 러닝(subliminal learning)’이라 명명하며, 언뜻 무해해 보이는 데이터 학습 과정에서도 모델들이 의도치 않은 행동을 습득할 수 있다고 경고했다.

지식 증류는 속도와 비용 효율성을 고려해 널리 활용되는 AI 모델 최적화 기법이다. 강력한 성능을 지닌 ‘선생’ 모델의 출력 결과를 바탕으로 가벼운 ‘학생’ 모델을 학습시켜 응용 분야에 특화된 버전을 만드는 방식이다. 그런데 앤스로픽은 이 과정에서, 전혀 관련 없는 데이터만을 사용했음에도 학생 모델이 선생 모델의 행동 특성을 습득하는 사례를 발견했다. 연구진은 이를 일종의 '잠재적 전달(hidden trait transfer)'로 분석했다.

실험에서 연구진은 특정 동물을 좋아한다고 설정한 선생 모델로 숫자나 코드, 수학적 사고 모델링 같은 전혀 관련 없는 데이터를 생성했다. 이후 이러한 데이터에서 선생 모델의 개성을 제거한 데이터를 바탕으로 학생 모델을 학습시켰다. 그런데도 학생 모델은 이상하게도 선호하던 동물에 대한 취향, 심지어는 위험한 행동 성향까지 흡수한 것으로 드러났다. 연구진은 데이터에 불순한 단서가 포함됐는지를 다양한 AI 분류기로 분석했지만, 어떤 의미적 연결도 감지되지 않았다.

특히 GPT 계열 아키텍처 기반 모델 사이에서만 이러한 서브리미널 러닝 현상이 나타났다는 것도 주목할 만하다. 예를 들어 GPT-4.1을 기반으로 한 선생 모델은 같은 GPT-4.1 학생 모델에게만 특성을 전달할 수 있었고, Qwen2.5와 같이 다른 계열의 모델에는 효과가 없었다. 이는 문제 해결의 실마리도 함께 제공한다. 앤스로픽의 연구자 알렉스 클라우드는 “서브리미널 러닝을 막으려면 선생 모델과 학생 모델이 서로 다른 아키텍처를 기반으로 구축돼야 한다”고 말했다.

이번 연구는 특히 생성형 AI가 보편화되는 상황에서 단순한 비용 절감을 위해 대형 모델이 만든 데이터를 재사용할 경우, 모델의 의도치 않은 행동 특성이 그대로 후속 모델로 전파될 수 있다는 점을 경고하고 있다. 기존에 알려졌던 데이터 오염(data poisoning)보다 더 은밀하고 예상치 못한 방식으로 이뤄지기 때문이다.

이러한 위험을 경감시키기 위한 실용적인 조치로, 연구진은 ‘교사-학생 모델을 아예 다른 계열로 구성’하거나, ‘데이터 생성에 다양한 모델을 조합’하는 방법 등을 제시한다. 하지만 후자의 경우 비용이 급증할 수 있어 현실적 대응은 전자를 우선 고려해야 한다고 조언한다.

한편, 단순히 행동을 점검하는 수준으로는 모델의 위험성을 충분히 파악하기 어렵다는 점도 강조된다. 클라우드는 “실제 배포 환경과 유사한 조건에서 보다 정밀한 평가 프로세스를 조직적으로 수행해야 한다”고 주문했다. 동시에, 모델 배치 후 감시를 위한 헌정된 감시 모델(예: 헌법 분류기)을 도입하는 방안도 제시되지만, 아직까지 그 유효성과 확장성엔 과제가 남아 있다.

앤스로픽의 이번 발표는 AI 안전성 확보가 단순히 학습 데이터의 클린화나 사용자 피드백만으로 해결될 수 없는 복합적 문제임을 방증한다. 특히 금융, 헬스케어 등 고위험 산업 분야에서 AI를 사용하는 기업은 이러한 잠재적 전이 효과를 면밀히 점검하고, 아키텍처 설계 단계에서부터 리스크를 사전에 차단하는 전략을 마련해야 할 것으로 보인다.

<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>

광고문의 기사제보 보도자료

많이 본 기사

관련된 다른 기사

주요 기사

美 상장기업, ETF 앞지르며 $BTC 직접 보유 96% 급증

美 상장기업, ETF 앞지르며 $BTC 직접 보유 96% 급증

도이치방크 등 참여한 올유니티, 첫 MiCA 규제 충족 유로 스테이블코인 'EURAU' 출시

도이치방크 등 참여한 올유니티, 첫 MiCA 규제 충족 유로 스테이블코인 'EURAU' 출시

비트코인 1억 6천만원 돌파…BTC ETH XRP SOL 강세 유지

비트코인 1억 6천만원 돌파…BTC ETH XRP SOL 강세 유지

댓글

댓글

0

추천

0

스크랩

스크랩

데일리 스탬프

0

말풍선 꼬리

매일 스탬프를 찍을 수 있어요!

데일리 스탬프를 찍은 회원이 없습니다.
첫 스탬프를 찍어 보세요!

댓글 0

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요
1