오픈AI가 이용자의 말을 도중에 끊거나 고쳐도 자연스럽게 반응하는 실시간 음성 인공지능 모델을 공개하면서, 생성형 인공지능 경쟁이 글 중심에서 음성 기반 상호작용으로 빠르게 넓어지고 있다.
오픈AI는 7일(현지시간) GPT-5급 추론 성능을 갖춘 음성 모델 ‘GPT-리얼타임-2’를 선보였다. 이 모델의 핵심은 사람끼리 대화하듯 흐름이 이어진다는 점이다. 기존 인공지능 음성 서비스는 사용자가 말을 마친 뒤 답이 나오는 식이어서 대화가 다소 기계적으로 느껴졌지만, 이번 모델은 이용자가 응답 중간에 끼어들거나 앞서 한 말을 수정해도 즉시 맥락을 반영한다. 상황에 따라 말투를 조절할 수 있고, 개발자는 업무 성격에 맞춰 답변 속도와 추론 수준도 선택할 수 있도록 했다.
함께 공개된 모델도 실용성에 초점이 맞춰졌다. ‘GPT-리얼타임-트랜슬레이트’는 음성을 실시간으로 다른 언어로 옮겨주는 번역용 모델이고, ‘GPT-리얼타임-위스퍼’는 회의나 통화 내용을 바로 글로 받아쓰는 모델이다. 오픈AI는 실시간 음성 기술이 단순한 문답을 넘어 이용자의 발화를 듣고, 의미를 파악해 추론하고, 번역하거나 기록하면서 실제 작업 수행까지 돕는 방향으로 발전하고 있다고 설명했다. 이는 인공지능이 단순한 챗봇을 넘어 업무 도구이자 서비스 접점으로 자리 잡고 있음을 보여준다.
기업 현장에서는 이미 이런 변화가 시험되고 있다. 미국 부동산 플랫폼 질로는 고객이 음성으로 말한 조건에 맞는 매물을 찾고 방문 일정까지 잡아주는 음성 비서를 구축하고 있다. 유럽 통신사 도이체텔레콤은 고객이 가장 편한 언어로 상담받을 수 있도록 실시간 번역 기반 고객 지원 서비스를 테스트 중이다. 기업 입장에서는 상담 인력을 줄이거나 응대 효율을 높일 수 있고, 소비자 입장에서는 검색과 예약, 문의 절차가 한층 간단해지는 효과를 기대할 수 있다.
이번 발표는 오픈AI의 자체 기기 전략과도 맞물려 있다는 해석이 나온다. 오픈AI는 애플에서 제품 디자인을 총괄했던 조니 아이브의 스타트업 ‘아이오’를 지난해 65억 달러에 인수한 뒤, 음성으로 조작하는 인공지능 기기를 준비해왔다. 시장에서는 스마트 안경, 옷에 부착하는 핀 형태 기기, 스마트 스피커 등이 후보로 거론되고 있고, 궈밍치 TF인터내셔널증권 분석가는 최근 오픈AI가 인공지능 에이전트 기능을 담은 자체 스마트폰을 개발하고 있다는 관측도 내놨다. 결국 음성 모델 고도화는 소프트웨어 경쟁을 넘어 차세대 기기 주도권 경쟁으로 이어질 가능성이 크다.
오픈AI는 이날 안전 기능도 함께 확대했다. 챗GPT가 대화 과정에서 자해 등 정신건강 위기 신호를 감지하면, 사용자가 미리 지정한 가족이나 친구 등 신뢰할 수 있는 연락처에 알림을 보내 도움을 받을 수 있게 하는 기능이다. 그동안 청소년 등 미성년자 계정에 적용되던 기능을 성인 계정으로 넓힌 것이다. 이 같은 흐름은 앞으로 인공지능 서비스 경쟁이 성능 향상뿐 아니라 일상 속 활용성, 기기 생태계, 안전장치까지 함께 갖추는 방향으로 이어질 가능성이 있다.
<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>
많이 본 기사