UCLA와 메타(META)의 AI 연구팀이 확산 기반 대형 언어 모델(dLLM)의 추론 능력을 획기적으로 개선하는 새로운 프레임워크 ‘d1’을 공개했다. 이 프레임워크는 강화 학습(RL)을 적용해 dLLM의 한계를 극복하고, 기업용 AI 솔루션의 속도와 품질을 크게 향상시킬 수 있는 가능성을 제시했다.
주요 대형 언어 모델(LLM)인 GPT-4o, 라마(LLAMA) 등이 채택하는 오토리그레시브(AR) 방식은 순차적으로 토큰을 생성하는 반면, dLLM은 전혀 다른 원리로 작동한다. dLLM은 초기에는 이미지 생성 분야에서 채택된 확산 기법을 언어에 맞춰 적용한 것으로, 입력 텍스트에서 무작위로 일부 토큰을 가리거나 손상시키고 이를 복원하는 방식을 통해 학습한다. 이러한 "거칠게 시작해 세밀하게 완성하는(coarse-to-fine)" 생성 과정은 텍스트 전반을 한 번에 고려할 수 있어, 긴 문장을 빠르게 처리하는 데 유리한 구조를 갖는다. 대표적인 dLLM 사례로는 오픈소스 라다(LLaDA)와 인셉션 랩스(Inception Labs)의 폐쇄형 머큐리(Mercury)가 있다.
하지만 지금까지 dLLM은 복잡한 추론 능력에서 AR 모델보다 아쉬운 모습을 보여왔다. 이 문제를 해결하기 위해 연구진은 두 단계로 구성된 ‘d1’ 교육 프로그램을 설계했다. 먼저, 고품질 문제 해결 과정이 담긴 s1k 데이터셋을 활용한 '지도학습 세부조정(SFT)'을 통해 추론 패턴을 학습시킨다. 이어 새로운 강화학습 기법 'diffu-GRPO'를 적용해, 고비용 계산 없이 dLLM에 효율적으로 추론 능력을 주입한다. diffu-GRPO는 입력 프롬프트의 일부를 무작위로 가리는 방식과 결합해, 데이터 다양성과 학습 효과를 극대화하는 것이 특징이다.
d1 프레임워크의 성능은 기존 모델들과 비교 평가를 통해 입증됐다. 연구진은 LLaDA-8B-Instruct 모델에 d1 훈련을 적용하고, GSM8K, MATH500, 스도쿠, 카운트다운 게임 등의 논리 및 수학적 추론 벤치마크를 수행했다. 그 결과, d1을 거친 모델이 일관되게 가장 높은 성능을 기록했다. 특히 diffu-GRPO만으로도 기존 SFT 모델을 크게 앞서는 결과를 보여, 강화 학습의 효과가 뚜렷하게 확인됐다.
UCLA 컴퓨터 과학과 부교수이자 논문 공동 저자인 아디티야 그로버(Aditya Grover)는 "기존 AR 기반 최첨단 추론 모델은 답변을 생성하는 데 30초 이상 걸리지만, dLLM은 동일 품질을 10배 빠르게 제공할 수 있다"고 말했다. 그는 또한 "금융, 전략 수립, 소프트웨어 엔지니어링 분야에서 d1 기반 AI 에이전트는 실시간 대응을 가능하게 해 줄 것"이라며 기대감을 나타냈다.
흥미로운 점은 d1을 적용한 모델이 긴 답변을 작성할 때 ‘자기 수정’이나 ‘되돌아보기’ 같은 고급 추론 전략을 스스로 구사하기 시작했다는 것이다. 이는 단순한 정답 암기가 아닌, 더 깊은 문제 해결 능력을 갖추고 있다는 증거로 해석된다.
현재 오토리그레시브 모델이 시장에서 우위를 점하고 있지만, 그로버 교수는 dLLM이 앞으로 판도를 바꿀 잠재력이 크다고 강조했다. 특히, 대기 시간이나 비용이 병목인 기업 환경에서는 d1이 대안을 넘어선 새로운 표준이 될 수 있다는 분석이다.
그는 “d1 스타일의 dLLM은 품질, 속도, 비용 측면 모두에서 AR LLM을 ‘파레토 우위’로 넘어설 수 있다”고 평가했다. 이는 기업이 까다로운 추론 품질을 포기하지 않고도, 속도와 비용 효율을 동시에 달성할 수 있는 시대가 열리고 있음을 뜻한다.