알리바바 그룹이 자사의 최신 대규모 언어 모델 프레임워크 ‘QwenLong-L1’을 공개하면서, AI가 긴 문서를 이해하고 추론하는 능력의 한계를 본격적으로 돌파할 수 있을지 주목받고 있다. 이 프레임워크는 기존 언어 모델들이 처리에 어려움을 겪었던 10만 토큰이 넘는 텍스트에서도 정보 기반의 추론을 가능케 하며, 금융 보고서나 법률 계약서처럼 길고 복잡한 문서에서도 정확한 답을 도출할 수 있도록 설계됐다.
최근 강화학습 기반의 대규모 추론 모델(LRM)은 사람의 ‘느린 사고’를 모사하며 복잡한 문제 해결 능력을 키워왔다. 하지만 이와 같은 성능 개선은 일반적으로 수천 단어 수준에서만 나온 결과물이다. 10만 단어 이상에 달하는 장문에서는 문맥 전체를 동시적으로 이해하고, 그 안에서 다단계 논리를 구성하는 것이 한계에 부딪혔다. QwenLong-L1 개발진은 이를 ‘장문 맥락 추론 RL(Long-Context Reasoning RL)’이라는 개념으로 정의하고, 기존의 단문 중심 추론 방식과는 근본적으로 다른 학습 전략이 필요하다고 설명한다.
QwenLong-L1은 총 세 단계로 구성됐다. 첫 번째는 지도 학습(SFT)으로 모델이 긴 문맥에서도 핵심 정보를 정확히 기반 삼아 답변을 도출할 수 있도록 기본기를 다지는 과정이다. 다음으로 커리큘럼 기반 강화학습을 적용해, 입력 문서의 길이를 점진적으로 늘려가며 안정적인 추론 능력을 키웠다. 마지막 단계에서는 어려운 예제를 선별해 집중적으로 학습시킴으로써, 다양한 논리 경로를 탐색하고 복잡한 문제에 더욱 강해지도록 했다.
또한 QwenLong-L1은 보상 체계에서도 다른 접근을 취했다. 단일 정답만을 기준삼는 수학 문제식 평가 대신, 정답의 의미적 유사성까지 판단하는 ‘LLM 심판’을 활용해 보다 유연하고 현실적인 학습 환경을 구현했다. 이는 동일한 내용도 표현 방식이 다양한 장문 문서 추론에 특히 유리한 방식이다.
알리바바는 효용성을 검증하기 위해 QwenLong-L1을 문서 기반 질의응답(DocQA) 테스트에 적용했다. 그 결과 32B 모델은 앤스로픽의 클로드 3.7, 오픈AI의 o3-mini처럼 현재 상업적으로 주목받고 있는 주요 모델들과 동등하거나 그 이상의 성능을 기록했다. 특히 14B 모델조차 구글의 젬버니 2.0 버전을 능가하는 결과를 보여, 경량화 모델에서도 장문 추론이 실현 가능한 차기 기술로 부상하고 있다.
QwenLong-L1은 단순히 정답을 맞히는 데 그치지 않고, 지도된 근거 기반 추론, 중간 목표 설정, 오류 정정 백트래킹, 자체 검증 능력 등을 학습하며 실질적인 ‘지능적' 추론 패턴을 형성했다. 이러한 기능은 단순 요약이나 간단한 QA를 넘어서는 고차원 업무에 AI를 활용할 수 있는 길을 연다.
향후 활용 분야는 법률, 금융, 고객 응대 등 산업 전반에 걸쳐 다양할 것으로 보인다. 수천 페이지에 이르는 법률 문서 분석, 연간 재무 보고서 기반의 리스크 평가, 고객 응대 내역의 심층 분석 등 인간 전문가만이 가능했던 복잡한 작업이 AI로 대체 가능해질 수 있기 때문이다.
알리바바는 이번 연구의 훈련 코드와 모델 가중치를 오픈소스로 공개했다. GitHub 및 Hugging Face에서 접근이 가능하며, 개발자나 연구자 누구나 이를 바탕으로 맞춤형 장문 추론형 모델을 개발하거나 응용할 수 있는 환경이 마련됐다. AI의 한계로 여겨졌던 장문 이해 가능성을 실현하면서, QwenLong-L1은 차세대 AI의 실용화를 위한 핵심 인프라로 입지를 다질 것으로 예상된다.