마이크로소프트(MSFT)가 새로운 고속 AI 음성 및 이미지 모델 3종을 발표했다. 이 모델들은 이미지와 오디오 처리를 최적화했으며, 마이크로소프트의 Azure 서비스인 Foundry에서 제공된다. 동시에 이들은 몇몇 다른 제품에도 적용되고 있다.
새로운 AI 알고리즘 중 하나인 MAI-Image-2는 사용자의 지시에 따라 최대 1024 x 1024 픽셀 해상도의 이미지를 생성할 수 있다. 이 모델은 1천억 개에서 500억 개의 비임베딩 파라미터를 사용하며, 이전 세대보다 2배 이상 빠른 속도를 자랑한다. MAI-Transcribe-1은 속도 뿐 아니라 정확성 면에서도 개선되었으며, 25개 언어에서 3.9%의 평균 오류율을 기록했다. 이는 경쟁 모델보다 우수한 성능이다.
MAI-Transcribe-1은 현재 배치 전사 기능만 가능하지만, 실시간 오디오 스트림 전사 기능과 화자 구분 기능이 향후 업데이트될 예정이다. 또 다른 모델인 MAI-Voice-1은 사용자 스크립트에 기반해 합성 음성을 생성하며, 몇 가지의 내장 AI 음성 또는 사용자 음성을 활용할 수 있다.
마이크로소프트는 이 세 모델이 경쟁사보다도 가격 경쟁력을 가지고 있으며, 다양한 서비스에서 이용 가능하게 지원하고 있다. 이 모델들은 Bing, PowerPoint 등과 같은 마이크로소프트의 여러 플랫폼에 적용될 예정이다.
마이크로소프트는 자사의 AI 작업을 지원하기 위해 MAIA라는 맞춤형 AI 칩 라인을 개발했으며, 최신 제품인 Maia 200은 최근 출시되어 경쟁 클라우드 제공업체의 칩을 성능 면에서 앞지른다.

