토픽

맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크 복사 완료 링크가 복사되었습니다.

오픈AI, 'GPT-리얼타임' 공개… 음성 AI 판도 바꿀까

프로필
김민준 기자
댓글 0
좋아요 비화설화 1

오픈AI가 실시간 음성 대응 기능을 갖춘 GPT-리얼타임 모델과 새로운 음성 API를 공개하며 기업용 음성 AI 시장 공략에 나섰다. 감정 표현과 지시 이행 능력이 향상돼 사용성도 강화됐다.

 오픈AI, 'GPT-리얼타임' 공개… 음성 AI 판도 바꿀까 / TokenPost.ai

오픈AI, 'GPT-리얼타임' 공개… 음성 AI 판도 바꿀까 / TokenPost.ai

기업용 음성 AI 시장의 경쟁이 치열해지고 있는 가운데, 오픈AI(OpenAI)가 새로운 음성 모델 ‘GPT-리얼타임(gpt-realtime)’을 공개하며 존재감을 강화하고 있다. 이 모델은 복잡한 명령을 정확히 따르고 자연스럽고 감정 표현이 풍부한 음성으로 응답하는 기능을 갖춰, 고객 응대와 학습 보조 등 다양한 기업 환경에서 활용될 전망이다.

오픈AI는 최근 실시간 대응 능력을 강화한 ‘리얼타임 API’를 전면 공개하며 GPT-리얼타임 모델과 함께 새로운 음성인 ‘시더(Cedar)’와 ‘마린(Marin)’도 출시했다. 회사 측은 해당 모델이 실제 고객 상담 및 교육 튜터링과 유사한 시나리오에서 훈련됐다고 설명했다. 이를 통해 음성 AI의 정확성은 물론, 사용자 맥락에 따른 감정 전달 능력까지 크게 개선됐다.

GPT-리얼타임 모델은 단순히 텍스트를 음성으로 변환하는 수준을 뛰어넘어, 음성 간 대화(speech-to-speech) 구조를 갖춘 것이 특징이다. 사용자 음성을 실시간으로 인식하고 이해한 뒤, 이에 맞는 자연스러운 음성으로 응답함으로써 실제 사람과 대화하는 듯한 경험을 제공한다. 대표적인 활용 예로는 고객이 제품을 반품하려 할 때 AI 상담원이 응대하거나, 부동산 플랫폼에서 상담원이 사용자의 조건에 맞는 매물을 추천하는 식이다.

오픈AI는 이 모델이 자사 음성 모델 중 가장 고도화된 상용 버전이라고 강조하며, 언어 전환도 문장 중간에 가능하다고 밝혔다. 특히 이전 모델보다 복잡한 명령을 해석하고 따를 수 있어, 예컨대 ‘프랑스식 억양으로 강조하며 말하라’ 같은 구체적인 요청도 수행할 수 있다.

이처럼 오픈AI의 신기술 등장에도 불구하고, 시장에는 이미 일레븐랩스(ElevenLabs), 사운드하운드(SoundHound), 휴임(Hume) 등 굵직한 경쟁자들이 다수 존재한다. 이들 기업은 각각의 강점을 앞세워 우위를 점하고 있으며, 일레븐랩스는 지난 5월 보다 정밀한 음성 간 대화 기능이 추가된 ‘Conversation AI 2.0’을 공개한 바 있다. 그 외에도 미스트랄(Mistral)의 ‘복스트랄(Voxtral)’은 실시간 번역 최적화를 목표로 하고 있으며, 구글(GOOGL)은 노트북LM에 오디오 기능을 접목해 연구 메모를 팟캐스트 형식으로 재구성할 수 있도록 개선하고 있다.

이번 GPT-리얼타임의 강점 중 하나는 지시 이행 능력 향상과 음성 인식 정확도 개선이다. ‘빅벤치 오디오(BigBench Audio)’ 평가에서는 정확도 82.8%를 기록해 이전 모델의 65.6% 대비 큰 개선을 보였다. 또 ‘멀티챌린지(MultiChallenge)’ 오디오 벤치마크에서도 30.5%를 기록하며 경쟁 우위를 확보했다. 여기에 지시 실행에 필요한 툴에 자동으로 연결되는 기능 호출 능력도 한층 강화됐다.

오픈AI는 기능 향상을 위한 핵심 인프라인 리얼타임 API도 함께 업그레이드했다. 주요 업데이트에는 MCP 지원과 이미지 입력 인식 기능, SIP 연결 기능 등이 포함되어 있는데, 이는 전화기와의 연결을 통해 고객센터 등에서 실시간 AI 답변을 가능하게 한다. 또한 API에 저장한 프롬프트를 재사용할 수 있어 기업의 이용 효율도 높아졌다.

초기 사용자 반응도 긍정적이다. 한 개발자는 “음성 품질이 향상됐고, 지시에 충실하며 반응 속도도 빨라졌다”고 밝혔다. 또 다른 사용자는 “외부 시스템과 매끄럽게 연동되는 SIP와 MCP 기능이야말로 이번 발표의 핵심”이라고 평가했다.

단점으로는 사용자 맞춤형 음성(커스텀 보이스) 기능 부재와 비용 부담이 지적됐다. GPT-리얼타임은 최근 가격을 약 20% 인하해 입력 토큰 100만 개당 32달러(약 4만 6,000원), 출력 토큰 100만 개당 64달러(약 9만 2,000원)로 책정했지만, 여전히 기존 TTS-LLM-STT 구조에 비해 가격대가 높다는 의견이 존재한다.

기업용 음성 AI의 성공은 단순히 기술적 완성도에 그치지 않고, 얼마나 일상적인 업무 시스템에 자연스럽게 통합될 수 있는지가 관건이다. 그런 측면에서 오픈AI의 GPT-리얼타임이 가시적인 성공을 거둘지는 앞으로의 시장 반응이 말해줄 것이다.

<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>

광고문의 기사제보 보도자료

많이 본 기사

미션

매일 미션을 완료하고 보상을 획득!

미션 말풍선 닫기
말풍선 꼬리
출석 체크

출석 체크

0 / 0

기사 스탬프

기사 스탬프

0 / 0

관련된 다른 기사

댓글

댓글

0

추천

1

스크랩

스크랩

데일리 스탬프

1

말풍선 꼬리

매일 스탬프를 찍을 수 있어요!

등급

toko21

09:26

댓글 0

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요
1