맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크 복사 완료 링크가 복사되었습니다.

딥그램, 통화 중 언어 바뀌어도 인식하는 ‘플럭스 멀티링구얼’ 출시

프로필
김서린 기자
댓글 0
좋아요 비화설화 1

딥그램이 통화 중 언어를 자동 감지하고 대화 중 언어 전환까지 처리하는 다국어 음성 인식 모델 ‘플럭스 멀티링구얼’을 정식 출시했다고 밝혔다.

단일 모델·단일 API로 10개 언어를 지원해 글로벌 고객센터의 복잡한 연동 구조와 응답 지연을 줄이는 데 초점을 맞췄다.

 딥그램, 통화 중 언어 바뀌어도 인식하는 ‘플럭스 멀티링구얼’ 출시 / TokenPost.ai

딥그램, 통화 중 언어 바뀌어도 인식하는 ‘플럭스 멀티링구얼’ 출시 / TokenPost.ai

실시간 음성 인공지능 스타트업 딥그램이 다국어 음성 인식 모델 ‘플럭스 멀티링구얼’을 정식 출시했다.

이번 출시의 핵심은 한 통화 안에서 언어를 자동으로 감지하고, 대화 중간에 영어에서 스페인어처럼 다른 언어로 바뀌어도 자연스럽게 처리할 수 있다는 점이다. 글로벌 고객센터와 음성 상담 서비스를 운영하는 기업 입장에서는 여러 시스템을 따로 붙이던 복잡한 구조를 줄일 수 있게 됐다.

딥그램은 이번 모델을 기존 자동음성인식(ASR)과 구분되는 ‘대화형 음성 인식’ 모델로 소개했다. 단순히 말을 문자로 옮기는 데 초점을 맞춘 것이 아니라, 실제 대화 흐름과 발화 전환을 더 자연스럽게 이해하도록 설계했다는 설명이다. 플럭스 멀티링구얼은 영어, 스페인어, 프랑스어, 독일어, 힌디어, 러시아어, 포르투갈어, 일본어, 이탈리아어, 네덜란드어 등 10개 언어를 단일 모델과 단일 애플리케이션 프로그래밍 인터페이스(API)로 지원한다.

그동안 여러 국가에서 음성 에이전트를 운영하는 기업들은 언어별 전사 모델, 언어 감지 기능, 라우팅 로직을 각각 이어 붙여야 했다. 이런 방식은 응답 지연을 키우고 시스템 전환 과정에서 오류가 생기기 쉬웠다. 딥그램은 플럭스 멀티링구얼이 이 같은 구조를 하나의 인식 모델로 대체한다고 강조했다. 개발자가 특정 언어를 힌트로 줄 수도 있고, 시스템이 실시간으로 자동 감지할 수도 있다. 대화 중 언어가 섞이는 ‘코드 스위칭’도 기본 지원한다.

기술적으로는 단순한 ‘침묵 감지’ 대신 모델 기반 발화 종료 감지를 적용했다. 상대방의 말이 끝났는지를 더 정확하게 판단해 400밀리초 미만으로 턴 종료 결정을 내린다는 설명이다. 음성 상담이나 AI 콜봇에서 중요한 것은 단순 정확도뿐 아니라 ‘언제 끼어들지 않고 언제 응답할지’인데, 딥그램은 이 지점이 자사 경쟁력이라고 보고 있다.

회사는 10개 지원 언어 전반에서 단일 언어 모델 수준의 정확도를 제공하며, 대화 중 끼어들기나 인터럽트도 자연스럽게 처리한다고 밝혔다. 기존 플럭스 API와도 호환돼 현재 연동 중인 개발사는 비교적 쉽게 확장할 수 있다. 배포 방식은 딥그램의 클라우드 API뿐 아니라 자체 호스팅도 가능하며, 유럽연합(EU) 엔드포인트와 소프트웨어 개발 키트(SDK)도 함께 제공된다.

스콧 스티븐슨 딥그램 공동창업자 겸 최고경영자(CEO)는 “음성 AI 에이전트는 곧 글로벌 기업이 고객과 상호작용하는 기본 방식이 될 것”이라며 “플럭스 멀티링구얼은 개발자가 ‘하나의 인식 모델’로 글로벌 음성 에이전트를 구축할 수 있도록 해주며, 통화 중 언어 전환도 가능하게 한다”고 말했다. 이어 “기업들은 이제 어떤 시장, 어떤 고객에게도 같은 수준의 매끄러운 경험을 제공할 수 있다”고 밝혔다.

딥그램에 따르면 현재 20만명 이상의 개발자와 1300개 이상의 조직이 이 회사 플랫폼을 사용하고 있다. 서비스 범위는 음성-텍스트 변환, 텍스트-음성 변환, 전체 음성-음성 기능까지 포함한다. 지금까지 5만년이 넘는 분량의 오디오를 처리했고, 1조개 이상의 단어를 전사했다고 회사는 설명했다.

플럭스 멀티링구얼은 현재 정식 사용이 가능하다. 딥그램은 이번 모델과 노바-3 모델에 적용되는 스트리밍 음성-텍스트 서비스에 대해 한시적 프로모션 요금도 내놨다. 가격 경쟁력까지 더해 시장 침투 속도를 높이려는 전략으로 읽힌다.

딥그램은 벤처투자를 받은 스타트업으로, 누적 약 2억1600만달러, 한화 약 3212억 원(환율 1달러당 1486.80원 기준)을 조달했다. 올해 1월에는 1억3000만달러, 약 1932억8000만 원 규모의 투자 라운드를 마무리했다. 주요 투자사로는 마드로나 벤처 그룹, 타이거 글로벌 매니지먼트, 윙 벤처 캐피털, 와이콤비네이터 매니지먼트, 엔비디아($NVDA), 시티 벤처스, SAP, 골드만삭스 자산운용 등이 참여했다.

이번 출시는 음성 AI 시장이 단순 전사 경쟁에서 ‘실시간 대화 품질’ 경쟁으로 옮겨가고 있음을 보여준다. 특히 다국어 고객 응대가 중요한 글로벌 기업에는 운영 복잡도를 낮추고 응답 속도를 개선할 수 있는 선택지로 보인다. 결국 승부처는 정확도 자체보다도, 실제 고객 대화에서 얼마나 ‘자연스럽게’ 작동하느냐에 달릴 가능성이 크다.

TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.
본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.

<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>

광고문의 기사제보 보도자료

많이 본 기사

alpha icon

지금 꼭 알아야 할 리포트

관련된 다른 기사

댓글

댓글

0

추천

1

스크랩

스크랩

데일리 스탬프

1

말풍선 꼬리

매일 스탬프를 찍을 수 있어요!

등급

디스나

12:09

댓글 0

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요
1