미스트랄, '스몰 3.2' 공개… 명령 정확도·안정성 강화

| 김민준 기자

프랑스 인공지능 스타트업 미스트랄(Mistral)이 또 한 번 주목할 만한 업데이트를 선보였다. 이번에 발표된 미스트랄 스몰(Mistral Small) 3.2는 불과 세 달 전 공개된 3.1 버전을 기반으로, 모델의 안정성과 명령 이해도, 반복 출력 방지 능력을 강화한 유지 개선형 버전이다. 핵심 구조는 그대로 유지하면서도, 세세한 사용성 개선에 집중한 점이 특징이다.

최신 버전은 특히 지시문 준수와 함수 호출 신뢰성 측면에서 뛰어난 성능을 보인다. 미스트랄은 내부 테스트 기준에서 3.2의 명령 수행 정확도가 3.1의 82.75%에서 84.78%로 향상됐다고 밝혔다. 또한 이전 버전에서 종종 나타났던 무한 루프성 출력 문제도 발생률이 2.11%에서 1.29%로 절반 가까이 줄었다. 이 같은 변화는 복잡한 프롬프트나 도구 기반 응용 서비스에서 더욱 안정적인 결과를 기대할 수 있게 했다.

성능의 향상은 외부 벤치마크에서도 확인된다. Wildbench v2에서는 약 10%p, Arena Hard v2에서는 두 배가 넘는 점수 향상이라는 성과를 거뒀다. 코딩 관련 평가에서도 긍정적인 결과가 이어졌는데, HumanEval Plus와 MBPP Pass@5에서 각각 92.9%, 78.3%의 정확도를 기록했다. 반면, AI 전반에 대한 종합 지식을 묻는 MMLU에서의 성능은 소폭 하락하며 여전히 3.1 대비 우월함이 명확하게 입증되진 않았다.

이번 버전은 파인튜닝을 위한 Instruction 체크포인트로 배포되며, Apache 2.0 오픈소스 라이선스를 통해 퍼블릭 접근이 가능하다. 약 55GB 수준의 그래픽 메모리만 있으면 단일 A100 또는 H100 GPU에서도 실행이 가능해, 컴퓨팅 자원이 제한된 기업에도 매력적인 옵션이다. 특히 vLLM이나 Transformers 같은 프레임워크와의 호환성이 높아, 쉽게 통합할 수 있다는 점도 개발자들에게 실질적인 장점이다.

미스트랄 스몰 3.1은 이미 구글 클라우드와 마이크로소프트 애저, 엔비디아 NIM 등 주요 플랫폼에 통합된 상태지만, 3.2는 현재로선 허깅페이스(Hugging Face)를 통한 직접 다운로드 및 로컬 배포 방식만 제공된다. 실전 투입보다는 파일럿 테스트나 커스터마이징 목적의 활용에 적합한 구도다.

업데이트 간격이 채 석 달도 되지 않아 빠르게 움직이는 미스트랄의 행보는, 대형 폐쇄형 모델과 경쟁하기 위한 전략으로 풀이된다. 특히 GDPR과 EU AI법 등 데이터 주권과 투명성 요구가 높은 유럽 시장을 겨냥한 만큼, 현지 규제를 충족하는 오픈소스 AI의 대안으로서 존재감을 강화하려는 포석이 담겨 있다.

결국 미스트랄 스몰 3.2는 성능보다 안정성과 일관성에 초점을 두고, 실사용 관점에서 적층된 개선을 제공한다는 점에서 의미가 있다. 벤치마크 수치의 인상적인 도약은 아니지만, 도구 활용도와 명령 처리 신뢰도가 향상되면서 기업 개발자나 솔루션 구축 사용자에게 실질적으로 더 유용해질 수 있는 선택지로 자리매김하고 있다.