대규모 언어 모델(LLM)의 자가 학습 가능성을 열어주는 새로운 훈련 체계가 주목받고 있다. 텐센트 AI 연구소와 미국 세인트루이스 워싱턴대학교 공동 연구진이 개발한 ‘R-Zero’ 프레임워크는 인간의 개입 없이도 AI가 스스로 학습 데이터를 만들어내는 방식을 채택했다. 이 시스템은 강화학습(RL)을 기반으로 한 자가 생성 데이터를 활용해 LLM이 꾸준히 진화하도록 유도한다는 점에서 기존의 데이터 라벨링 방식에 근본적인 변화를 예고하고 있다.
핵심은 서로 다른 역할을 수행하는 ‘도전자(Challenger)’와 ‘해결자(Solver)’ 모델 간의 상호작용에 있다. 두 모델은 각기 분리되어 훈련되지만, 서로 지속적으로 문제를 제기하고 해결하는 과정을 반복하며 함께 진화한다. 도전자는 해결자의 현재 수준을 고려해 적절한 난이도의 문제를 생성하고, 해결자는 이에 맞서는 방식으로 학습한다. 이렇게 만들어진 문제는 다양성과 품질 기준에 따라 선별되며, 해결자가 반복된 시도 끝에 도출한 다수결 방식의 정답을 기준으로 훈련이 이뤄진다.
연구진은 이 구조가 실제로 LLM의 추론 능력을 향상시키는 데 있어 매우 효과적임을 실험으로 증명했다. 예컨대 알리바바가 공개한 오픈소스 모델 Qwen3 시리즈를 대상으로 수학 문제를 통해 훈련한 뒤, 이를 일반적인 추론 문제에 확장 적용한 결과, R-Zero 프레임워크를 거친 모델들은 고도화된 추론 과제를 더 잘 해결하는 성능을 보였다. 특히 수학 영역에서 얻은 학습 효과가 MMLU-Pro(종합 추론 벤치마크)와 같은 복합적 테스트로 자연스레 확장되며 일반화 능력이 크게 향상됐다는 것이 연구진의 설명이다.
R-Zero의 가장 큰 장점은 ‘라벨이 없는 상태(zero-data)’에서도 AI가 진화할 수 있다는 점이다. 관련 논문 공저자인 워싱턴대학교 박사과정 황청송(Chengsong Huang)은 “이 방식은 인간이 데이터를 직접 수집하고 라벨링해야 하는 부담을 원천적으로 제거하며, AI를 인간 능력의 범주 너머로 확장시킬 수 있는 출발점”이라고 강조했다. 이는 특히 고품질 데이터 확보가 어려운 특수 산업군에서 매우 유용한 접근법이 될 수 있다.
다만 이 프레임워크에도 한계는 존재한다. 반복 훈련이 진행될수록 도전자가 만들어내는 문제 수준은 향상되지만, 해결자의 정답 판단 정확도는 점차 떨어지는 경향을 보였다. 실제로 세 번째 반복 훈련 시 생성 데이터의 ‘정답률’은 첫 반복 훈련 당시 79%에서 63%로 하락했다. 이는 GPT-4와 같은 오라클 AI의 평가 기준과 비교해도 성능 저하가 뚜렷한 수치다.
이 같은 데이터 품질 저하는 긴 호흡의 훈련 과정에서 치명적인 병목 요소가 될 수 있다. 황 연구원은 “자가 진화 프레임워크의 가능성을 개념적으로 입증한 성과이지만, 보다 안정적이고 지속 가능한 성능 향상을 위해 해결해야 할 과제가 많다”며 “데이터 품질 유지와 성능 고착화 방지라는 두 과제는 향후 연구의 핵심 축이 될 것”이라고 밝혔다.
또한 동적 패턴이 분명한 수학처럼 정답 판단이 명확한 영역에는 효과적이지만, 주관성이 개입되는 마케팅 문안 작성이나 보고서 요약 같은 복잡한 언어 작업에는 제약이 있다는 지적도 제기된다. 이에 대해 연구진은 ‘검증자(Verifier)’ 또는 ‘비평가(Critic)’라는 역할을 수행하는 세 번째 AI 모델을 추가해 해결 가능성을 모색하고 있다. 도전자는 문제 생성, 해결자는 정답 출력, 검증자는 품질 평가를 수행하는 3자 협업 구조를 통해 보다 정교한 학습이 가능하다는 설명이다.
인간 라벨링에서 벗어나 완전한 자율성을 갖춘 AI 시스템을 만들기 위한 여정은 아직 시작 단계지만, 이번 연구는 데이터 한계에 직면한 기업들에게는 새로운 선택지를 제시하는 계기가 될 것으로 보인다. R-Zero는 지금까지 AI 훈련에서 당연하게 여겨졌던 인간 중심 패러다임을 흔드는 실질적인 대안으로, 자가 진화형 지능 시스템의 미래를 미리 보여준 셈이다.