대규모 언어 모델이 일정 수준 이상의 성능을 발휘하면서도 스스로 학습하거나 새로운 지식을 내재화하는 데 한계가 있다는 지적이 이어지는 가운데, MIT가 이 문제를 근본적으로 해결할 프레임워크를 제시했다.
MIT 연구진은 최근 '자가 적응 언어 모델(SEAL: Self-Adapting Language Models)'이라는 새로운 학습 패러다임을 공개했다. 이 프레임워크는 기존의 정적 학습 구조와 달리 모델이 스스로 학습 데이터를 생성하고, 그 데이터를 기반으로 내부 매개변수를 지속적으로 조정할 수 있도록 설계됐다. 모델이 스스로 훈련 데이터를 정제하고 학습 지침을 만든 뒤, 그 정보를 바탕으로 장기적인 변화까지 유도한다는 점에서 기업용 AI의 활용 가능성이 크게 확대될 것이란 전망이다.
MIT 박사과정 연구원 조 파리(Jyo Pari)는 "정확한 정보 회상 그 이상을 요구하는 기업 환경에서는 지속적이고 깊이 있는 적응력이 필수"라며, "예를 들어 한 소프트웨어 개발 도우미가 특정 기업의 독자적인 프레임워크를 내재화해야 하거나, 고객용 챗봇이 개인화된 사용자의 행동 패턴을 장기적으로 반영해야 할 경우, 이 프레임워크의 진가가 발휘될 것"이라고 말했다.
SEAL의 핵심은 모델이 스스로 '자기 수정(self-edit)' 명령어를 생성하고 이를 통해 스스로를 튜닝하는 방식이다. 모델은 강화 학습 알고리즘을 활용해 변화의 효용을 평가하고, 학습 효과가 있는 경우 보상을 받아 해당 방식의 효과를 스스로 개선해 나간다. 시간이 지나면서, 스스로 학습하고 적응하는 능력이 높아지는 셈이다.
이 프레임워크는 특히 새로운 사실을 장기적으로 기억하거나 제한된 예시만으로 문제를 해결하는 '수 샷 학습(few-shot learning)'에서 탁월한 성과를 보였다. 기존 라마-3.2-1B 모델에 단순하게 새로운 정보를 주입했을 때보다, SEAL 방식으로 모델이 스스로 생성한 데이터로 학습했을 때 정확도가 최고 47%까지 향상됐다. 이는 인간이 만든 고품질 데이터나 대형 모델(GPT-4.1 등)을 활용했을 때보다도 높은 수치다.
다만 SEAL은 모든 상황에 적용 가능한 만능 솔루션은 아니다. 연속 학습 과정에서 과거 지식을 잃어버리는 '치명적 망각(catastrophic forgetting)' 문제가 발생할 수 있다. 이 때문에 연구진은 '하이브리드 메모리 체계'를 제안했다. 즉, 단기적이거나 시시각각 변화하는 정보는 외부 메모리(RAG 기반)에 의존하고, 사용자의 행동 패턴이나 조직의 업무 프로세스 같이 장기적으로 유지해야 할 정보는 SEAL을 통해 모델 내부에 각인시킨다는 전략이다.
또한 실시간성과 관련한 제약도 있다. 자가 수정 예시를 설계하고 모델을 학습시키는 데 시간이 소요되기 때문에, 생산 환경에서는 실시간으로 반영하기 어렵다는 한계가 있다. 이에 대해 연구진은 "하루 또는 일정 시간 동안 데이터를 수집하고 이후에 모아서 업데이트하는 방식이 현실적일 것"이라며, "이 접근법이 기업용 AI의 유연성과 효율성을 모두 만족시킬 해법이 될 것"이라고 설명했다.
고품질의 인적 학습 데이터가 고갈될 가능성이 제기되는 지금, SEAL은 AI 모델이 인간의 도움 없이도 자체적으로 훈련 데이터를 생성하고 고도화할 수 있는 기반을 마련했다는 평을 받고 있다. 특히 기업 환경에서 상시 변화하는 실무적 요구에 대응할 수 있는 ‘자가 적응형 AI 에이전트’ 개발에 있어서 필수적인 기술로 주목받고 있다.
MIT 연구팀은 "SEAL은 대규모 언어 모델이 더 이상 고정된 상태에 머물 필요가 없다는 사실을 입증했다"며, "스스로 학습 데이터와 학습 기법을 정의해가는 이 프레임워크는 앞으로 AI가 스스로를 진화시키는 기반이 될 것"이라고 강조했다.