마이크로소프트, 고속 AI 음성·이미지 모델 발표…최신 'Maia 200' 칩 지원

김민준 기자

2026.04.03 (금) 05:56

마이크로소프트가 빠르고 정확한 AI 음성 및 이미지 모델 3종을 발표하며, 경쟁사보다 우수한 성능과 가격 경쟁력을 강조했다. 새로운 AI 칩 'Maia 200'도 공개해 클라우드 성능을 강화했다.

마이크로소프트, 고속 AI 음성·이미지 모델 발표…최신 'Maia 200' 칩 지원 / TokenPost.ai

마이크로소프트(MSFT)가 새로운 고속 AI 음성 및 이미지 모델 3종을 발표했다. 이 모델들은 이미지와 오디오 처리를 최적화했으며, 마이크로소프트의 Azure 서비스인 Foundry에서 제공된다. 동시에 이들은 몇몇 다른 제품에도 적용되고 있다.

새로운 AI 알고리즘 중 하나인 MAI-Image-2는 사용자의 지시에 따라 최대 1024 x 1024 픽셀 해상도의 이미지를 생성할 수 있다. 이 모델은 1천억 개에서 500억 개의 비임베딩 파라미터를 사용하며, 이전 세대보다 2배 이상 빠른 속도를 자랑한다. MAI-Transcribe-1은 속도 뿐 아니라 정확성 면에서도 개선되었으며, 25개 언어에서 3.9%의 평균 오류율을 기록했다. 이는 경쟁 모델보다 우수한 성능이다.

MAI-Transcribe-1은 현재 배치 전사 기능만 가능하지만, 실시간 오디오 스트림 전사 기능과 화자 구분 기능이 향후 업데이트될 예정이다. 또 다른 모델인 MAI-Voice-1은 사용자 스크립트에 기반해 합성 음성을 생성하며, 몇 가지의 내장 AI 음성 또는 사용자 음성을 활용할 수 있다.

마이크로소프트는 이 세 모델이 경쟁사보다도 가격 경쟁력을 가지고 있으며, 다양한 서비스에서 이용 가능하게 지원하고 있다. 이 모델들은 Bing, PowerPoint 등과 같은 마이크로소프트의 여러 플랫폼에 적용될 예정이다.

[토큰분석] 은행은 회복했지만, 토큰화 앞에서는 취약하다

알파리포트 전문 보기 →

마이크로소프트는 자사의 AI 작업을 지원하기 위해 MAIA라는 맞춤형 AI 칩 라인을 개발했으며, 최신 제품인 Maia 200은 최근 출시되어 경쟁 클라우드 제공업체의 칩을 성능 면에서 앞지른다.

본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.

광고문의 기사제보 보도자료

#마이크로소프트 #AI모델 #음성인식 #이미지생성

텔레그램에서 토큰포스트 속보 보기