구글 LLC가 스마트폰에서 바로 쓸 수 있는 실시간 음성 통역 기능 ‘제미나이 3.5 라이브 트랜스레이트’를 공개했다. 서로 다른 언어를 쓰는 이용자끼리도 몇 초 안 되는 지연만으로 대화를 이어갈 수 있게 하겠다는 구상이다.
구글은 최근 공식 블로그를 통해 제미나이 3.5 라이브 트랜스레이트가 자사의 가장 진보한 ‘음성-대-음성’ 번역 모델이라고 밝혔다. 기존 번역 서비스는 한 사람이 말을 마친 뒤 이를 인식하고 번역해 다시 들려주는 방식이어서 대화 흐름이 자주 끊겼다. 반면 이번 모델은 상대방의 발화를 계속 들으면서 내용을 번역하고, 이를 상대 언어로 바로 말해주는 구조를 갖췄다.
구글의 아누다 위라싱게 제품 관리자와 토니 루 수석 소프트웨어 엔지니어는 공동 작성한 글에서 이 기능이 사용자의 언어를 자동으로 감지한다고 설명했다. 별도로 언어를 미리 설정하지 않아도 되며, 출시 시점 기준으로 70개 이상의 언어를 지원한다. 이에 따라 실제로는 수천 개 수준의 언어 조합이 가능하다는 게 회사 측 설명이다.
이 기능은 개발자와 기업 고객에도 제공된다. 앞으로 외부 커뮤니케이션 플랫폼이나 고객 응대 시스템에 통합될 가능성이 크다는 뜻이다. 동시에 일반 이용자는 구글 번역 앱에서 직접 사용할 수 있다.
구글이 실시간 통역을 시도한 건 처음은 아니다. 다만 과거에는 자사 스마트폰이나 이어버드처럼 특정 하드웨어에 의존하는 경우가 많았다. 이번 제미나이 3.5 라이브 트랜스레이트는 ‘모든 스마트폰’에서 작동할 수 있도록 설계된 점이 차별점으로 꼽힌다.
핵심 기술은 ‘연속 스트림 번역’이다. 상대가 말을 완전히 끝낼 때까지 기다리지 않고, 발화 도중에도 번역 결과 생성을 시작하는 방식이다. 이 덕분에 실제 대화는 기존 번역 앱보다 훨씬 자연스럽고 매끄럽게 이어진다. 긴 침묵 후 번역이 나오는 기존 방식과 달리, 전화 통화에 가까운 흐름을 구현하려는 접근으로 볼 수 있다.
구글은 이 모델이 ‘현실 세계’를 전제로 설계됐다고 강조했다. 시끄러운 환경에서도 작동할 수 있고, 여러 사람이 겹쳐 말하거나 구어체 표현이 섞여도 처리 성능을 유지하도록 만들었다는 설명이다.
활용 분야도 넓다. 고객 지원 통화, 교실 수업, 관광 가이드, 차량 호출 서비스, 생방송 등 실제 현장에서 언어 장벽을 낮출 수 있는 사례가 거론됐다. 단순 여행 회화 수준을 넘어 업무와 서비스 현장으로 확장하려는 전략이 읽힌다.
또 하나의 특징은 음성 품질이다. 구글은 기존 번역 앱에서 흔히 지적됐던 기계적이고 ‘로봇 같은’ 음성을 넘어서, 화자의 말속도와 억양, 감정 톤까지 최대한 살리는 데 초점을 맞췄다고 밝혔다. 번역 정확도뿐 아니라 대화의 ‘자연스러움’ 자체를 개선하려는 시도다.
시장에서는 구글이 기계 번역 분야 선두 자리를 다시 한번 확인했다는 평가가 나온다. 콘스텔레이션 리서치의 홀거 뮐러는 구글이 20여 년 전 구글 번역을 출시한 이후 줄곧 이 분야를 이끌어 왔다며, 이번 제미나이 3.5 라이브 트랜스레이트는 번역 품질과 지원 언어 측면에서 그 우위를 유지하고 있음을 보여준다고 평가했다.
그는 특히 소비자용 앱에서 동시 통역에 가까운 경험을 본격적으로 제공하기 시작했다는 점에 주목했다. 일부 영역에서는 인간 통역사보다 품질이 나을 가능성도 있으며, 비용 측면에서는 훨씬 저렴할 것이라고 덧붙였다.
결국 제미나이 3.5 라이브 트랜스레이트의 의미는 단순한 기능 추가를 넘어선다. 스마트폰만으로 언어 장벽을 낮추는 방향이 현실에 가까워졌다는 점에서다. 여행객은 물론 해외 기업과 협업하는 이용자들에게도 실질적인 편의가 커질 수 있다. 다만 실제 시장 안착 여부는 번역 정확도, 지연 시간, 개인정보 처리 신뢰도, 외부 서비스 확산 속도에 달려 있을 것으로 보인다.
TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>
많이 본 기사