오픈AI와 마이크로소프트(MSFT)가 새로운 음성 생성 인공지능(AI) 모델을 각각 공개하며 음성 인터페이스 시장의 판도를 재편하고 있다. 두 기업은 각각 고유의 기술력을 녹여낸 음성 AI를 내놓고, 개발자와 사용자의 실시간 상호작용 경험을 혁신적으로 개선하겠다는 목표를 내세웠다.
오픈AI는 'gpt-리얼타임(gpt-realtime)'이라는 새로운 음성 모델을 공개하며, 음성 생성 분야에서 플랫폼 경쟁력을 대폭 강화했다. 이 모델은 기존보다 훨씬 자연스러운 음성을 생성할 수 있으며, 문장 도중에도 톤과 언어를 유연하게 전환할 수 있는 기능이 포함됐다. 특히 사용자 지시에 민감하게 반응해 맞춤형 응답을 생성할 수 있다는 점에서 기술 지원, 헬스케어, 교육 등 다양한 분야에 활용 가능성이 크다. 예를 들어, 고객지원 챗봇에 적용하면 사용자가 문제 상황의 스크린샷을 업로드하며 챗봇과 상호작용할 수 있는 이미지 업로드 기능도 함께 제공된다.
gpt-리얼타임은 오픈AI의 리얼타임 API를 통해 제공되며, 이 API는 음성과 멀티모달 상호작용을 모두 아우른다. 오픈AI는 이번 업데이트와 함께 API를 정식 출시하며, 개발 메시지, 도구, 변수, 예시 대화문 등을 저장하고 재사용할 수 있는 기능도 발표했다. 이는 복잡한 음성 기반 어플리케이션 구축 시 일관성과 확장성을 동시에 제공하려는 전략으로 풀이된다.
마이크로소프트는 동시에 자체 음성 모델인 'MAI-Voice-1'과 AI 모델 'MAI-1-preview'를 각각 선보이며 존재감을 키우고 있다. MAI-Voice-1은 현재 마이크로소프트의 코파일럿(Copilot) 서비스에 통합되어 있으며, 날씨 요약, 텍스트 팟캐스트 생성 등 다양한 업무를 수행할 수 있다. 특히 이 모델은 1분 분량의 음성을 1초 이내에 생성할 수 있을 만큼 뛰어난 하드웨어 효율성을 자랑한다. 마이크로소프트는 사용된 GPU 종류는 공개하지 않았지만, 최적화된 연산 구조 덕분에 단일 칩에서 성능을 극대화할 수 있다고 설명했다.
함께 공개된 MAI-1-preview는 엔비디아(NVDA) H100 GPU 1만 5,000개를 활용해 학습됐으며, 고효율을 극대화하기 위한 ‘믹스처 오브 엑스퍼츠(Mixture-of-Experts)’ 구조를 채택했다. 이 구조는 AI가 모든 파라미터를 사용하는 대신 필요한 일부만 활성화함으로써 연산 자원을 획기적으로 절약할 수 있다. 이 모델은 현재 일부 개발자에게만 API 형태로 제공되며, 가까운 시일 내 코파일럿 플랫폼에 단계적으로 통합될 예정이다.
마이크로소프트는 앞으로 MAI-1-preview의 업그레이드 버전을 GB200 기반 클러스터에서 훈련할 계획이다. 이 차세대 트레이닝 인프라는 엔비디아의 최신 GPU인 블랙웰 B200을 72개, 중앙처리장치(CPU)는 36개로 구성되어 있으며, 데이터센터 AI 연산에 특화된 구조다.
두 기업 모두 이번 발표를 통해 음성 AI 시장에서 한층 진화된 경쟁에 뛰어들었다. 오픈AI는 대중성과 접근성에 중점을 두고, 마이크로소프트는 고성능과 통합 생태계 중심 전략을 강화하고 있다. 양사는 서로 다른 접근법을 취했지만, 공통적으로 AI의 사용자 맞춤성과 실시간 상호작용 능력을 핵심 과제로 설정했다는 점이 시장에 주는 시사점은 크다. AI 기반 음성 인터페이스의 차세대 표준을 누가 먼저 장악할지는 당분간 기술 개발 속도와 플랫폼 확장 전략에 달려 있을 것으로 보인다.