중국의 인공지능 스타트업 미니맥스(MiniMax)가 새로운 AI 모델 M2.1을 공개하며 글로벌 생성형 AI 경쟁에 다시 한 번 도전장을 내밀었다. 이 모델은 프로그래밍 언어 다변화와 실무 환경 대응 능력을 대폭 강화한 것이 특징으로, 코딩 지원뿐만 아니라 문서 작성, 대화 응답에서도 전반적으로 향상된 성능을 선보인다.
이번에 발표된 M2.1은 기존 모델 M2의 성능을 넘어서는 업그레이드를 통해 다양한 프로그래밍 언어에 대한 이해도와 생성 정확도를 크게 높였다. 지원 언어는 러스트, 자바, 고랭, C++, 코틀린, 오브젝티브-C, 타입스크립트, 자바스크립트 등으로 확대됐으며, 웹·안드로이드·iOS 기반의 사용자 인터페이스 설계와 미적 구성 능력도 주목할 만한 개선이 이루어졌다는 평가다.
특히 M2.1은 단순한 코드 실행의 정합성은 물론, 복잡한 업무 지시나 세부 지침을 해석하고 따르는 능력이 강화돼 실제 오피스 환경에 보다 적합한 AI로 구성됐다. 미니맥스는 이를 위해 모델의 대화력과 문서작성 능력을 고도화했으며, 일반 일상 대화에서부터 기술 문서 작성과 구조화된 응답까지 넓은 범위에서 우수한 성능을 보여준다고 설명했다.
AI 에이전트 기반 오픈소스 플랫폼 킬로 코드(Kilo Code)의 공동창업자이자 CEO인 스콧 브레이튼아더(Scott Breitenother)는 “초기 테스트에서 M2.1은 아키텍처 설계, 코드 오케스트레이션, 리뷰, 배포 등 전 개발 과정에서 매우 뛰어난 성과를 보였다”며 비용 효율성과 수준 높은 성능을 동시에 만족시키는 모델로 평가했다.
이번 모델은 또한 새로운 벤치마크 지표인 VIBE(Vision and Interactive Benchmark for Execution)를 통해 평가됐다. VIBE는 웹, 시뮬레이션, 안드로이드, iOS, 백엔드 개발 등 다섯 가지 핵심 분야를 바탕으로 구성되었으며, 에이전트 기반 검증 언어를 통해 생성된 결과물의 상호작용 로직과 시각적 요소를 함께 판단한다. 미니맥스에 따르면 M2.1은 해당 벤치마크에서 평균 88.6점을 획득했으며, 그중 웹과 안드로이드 분야에서는 각각 91.5점과 89.7점이라는 우수한 성과를 기록했다.
M2.1은 주류 AI 모델과도 성능 비교가 이뤄졌다. 앤트로픽(Anthropic), 구글(GOOGL), 오픈AI, 딥시크(DeepSeek) 등 주요 업체의 주력 모델들과 나란히 평가받은 결과, M2.1은 ‘휴머니티스 라스트 이그잼(Humanity’s Last Exam)’과 ‘툴라톤(Toolathon)’ 같은 고난이도 벤치마크에서도 강력한 문제해결 성능을 나타냈다. 특히 HLE w/o Tools 항목에선 22.0점, MMLU(Pro)/인문·과학·기술 영역 통합 테스트에서는 88점을 기록하며 최상위 AI 모델군과 어깨를 나란히 했다.
M2.1은 현재 미니맥스 자체 API나 허깅페이스(Hugging Face)를 통해 다운로드 받을 수 있으며, 회사의 대표 서비스인 미니맥스 에이전트 역시 M2.1 기반으로 운영되고 있다. 이번 모델 공개는 멀티언어 코딩 지원과 AI 에이전트 시장이 더욱 빠르게 진화하고 있음을 보여주며, 중국발 생성형 AI의 범용성과 경쟁력이 꾸준히 확장되고 있음을 시사한다.
<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>