중국 알리바바의 AI 연구팀인 Qwen이 또다시 AI 업계를 뒤흔들고 있다. 최근 Qwen 팀은 일주일 사이 무려 4개의 오픈소스 생성형 AI 모델을 공개하며 글로벌 벤치마크를 휩쓴 가운데, 그 정점에는 최신 논리추론 특화 모델인 Qwen3-235B-A22B-Thinking-2507이 있다. 이 모델은 구글(GOOGL)의 제미니와 오픈AI(OpenAI)의 최신 모델을 능가하는 성능을 보이며 AI 업계에서 올해 여름의 ‘히트작’으로 급부상했다.
Qwen3-Thinking-2507은 지연시간이 길지만, 스스로 사고의 흐름을 형성하고 오류를 점검하는 ‘연쇄적 사고(chain-of-thought)’ 방식을 통해 보다 정확하고 포괄적인 응답을 생성한다. 실제로, 수학 및 논리 문제 해결능력을 평가하는 AIME25 벤치마크에서 92.3점으로 1위를 기록하며 OpenAI의 o4-mini(92.7), Gemini-2.5 Pro(88.0)를 능가하거나 바짝 추격했다. 코드 기반 문제해결을 평가하는 LiveCodeBench v6에서도 74.1점을 달성하며 주요 경쟁자를 앞섰다. 이는 기존 버전(Qwen3의 55.7점) 대비 비약적인 성능 향상이다.
특히 Qwen3-Thinking 모델의 강점은 단일 모델로 논리 기반 응답에 최적화돼 있다는 점이다. 이전에는 '사고형'과 '비사고형' 모델 간 전환이 필요했지만, 이번 모델은 고도로 전문화된 설계 철학에 기반해 통합 성능을 발휘한다. 이는 알리바바가 AI 모델 설계전략을 근본적으로 바꿨음을 의미한다.
Qwen 팀은 이번 논리추론 모델 외에도 추론이 아닌 ‘지시형’ 모델인 Qwen3-235B-A22B-Instruct-2507도 함께 공개했고, 대형 파라미터 기반의 코딩 특화 모델 Qwen3-Coder-480B-A35B, 다국어 번역을 위한 Qwen3-MT도 연이어 출시하며 각 벤치마크에서 고성능을 입증했다.
이들 모델은 모두 Apache 2.0 라이선스로 제공된다. 이는 상업적 활용과 재배포에 제약이 없으며, 기업이 자체 서버에 구축하거나 맞춤형으로 재학습시킬 수 있도록 허용해 기술적 및 비용적 유연성을 극대화한다. 특히 API 접근이 제한되는 여타 모델들과 달리, 완전한 통제를 원하거나 데이터 주권 및 지연시간 최소화를 중시하는 기업들에게 큰 장점으로 작용한다.
현재 Qwen3-Thinking-2507은 허깅페이스(Hugging Face), 모델스코프(ModelScope), Qwen API에서 무료로 배포 중이며, 고급 사용자들은 노드JS, CLI, OpenAI 호환 API를 통해 손쉽게 통합 가능하다. 복잡한 작업을 위한 최적화 샘플 설정도 공식 문서를 통해 제공된다.
Qwen 팀의 이번 전략은 단순히 모델 수를 늘리는 것을 넘어서, 각 모델이 특정 목적에 최적화되도록 세분화하는 방향으로 진화하고 있다. 특히 고객 지원, 로컬라이제이션, 연구 등 다양한 업계에서 고도화된 AI 활용을 모색하는 기업들로부터 높은 관심을 받고 있다. Qwen 시리즈는 빠르게 API 기반 ‘블랙박스’ 모델에 대한 대안으로 자리 잡으며, 개방성과 성능을 모두 갖춘 차세대 AI 인프라의 유력 후보로 떠오르고 있다.