구글의 인공지능 조직 딥마인드가 새로운 음성 합성 모델 ‘제미나이 3.1 플래시 TTS’를 공개했다. 기존의 기계적인 음성보다 훨씬 자연스럽게 말할 수 있을 뿐 아니라, 사용자가 텍스트 명령만으로 말투와 속도, 분위기까지 세밀하게 조정할 수 있다는 점이 핵심이다.
말투·억양·속도까지 텍스트로 지시
구글 LLC는 최근 블로그를 통해 제미나이 3.1 플래시 TTS를 선보였다고 밝혔다. 이 모델은 챗봇 응답을 음성으로 바꾸는 과정에서 ‘열정적인’, ‘긍정적으로 놀란’, ‘정보 전달형’ 같은 지시어를 반영해 억양과 톤을 바꿀 수 있다.
공개된 시연 영상에 따르면 사용자는 단순히 목소리를 고르는 수준을 넘어, 음성의 전달 방식과 분위기까지 조절할 수 있다. 이전 세대 TTS가 다소 ‘로봇 같았다’면, 이번 모델은 보다 사람에 가까운 표현력을 구현하는 데 초점이 맞춰졌다.
영어 지역 억양부터 팟캐스트 형식까지 지원
제미나이 3.1 플래시 TTS는 다양한 주요 언어의 지역별 억양도 제공한다. 영어의 경우 미국식 ‘밸리’와 ‘서던’ 억양은 물론, 영국식 ‘브릭스턴’, ‘RP’ 등 여러 변형을 선택할 수 있다. 여기에 ‘트랜스애틀랜틱’ 같은 특수한 억양 옵션도 포함됐다.
구글은 이 모델에 ‘디렉터급 제어’ 기능도 넣었다. 사용자는 말하는 스타일과 속도를 더 세밀하게 조정할 수 있고, 팟캐스트 대화, 오디오북 내레이터, 언어 튜터, 음성 비서, 웰니스 가이드, 뉴스 진행자, 고객지원 상담원 같은 형식 템플릿도 활용할 수 있다.
특히 이용자가 장면과 환경을 설정하고, 대사 지침까지 입력하면 캐릭터가 여러 차례 대화를 이어가면서도 일관된 말투를 유지하도록 설계됐다. 구글은 완성한 설정값을 제미나이 API 코드로 내보내 여러 프로젝트와 플랫폼에서 같은 음성을 재현할 수 있다고 설명했다.
70개 이상 언어 지원…워터마크도 적용
구글에 따르면 제미나이 3.1 플래시 TTS의 목표는 보다 자연스러운 음성 경험을 제공하는 데 있다. 지원 언어는 일본어, 힌디어, 독일어를 포함해 70개 이상이다.
또 모든 출력물에는 신스ID(SynthID) 워터마크가 삽입된다. AI가 생성한 음성 콘텐츠를 식별하기 쉽게 해, 향후 딥페이크나 허위 정보 확산 우려에 대응하려는 조치로 풀이된다.
블라인드 평가 2위…개발자도 즉시 사용 가능
성능도 일정 수준 입증됐다. 수천 건의 블라인드 인간 선호도 평가를 반영하는 ‘아티피셜 애널리시스 TTS 리더보드’에서 제미나이 3.1 플래시 TTS는 1211점을 기록해 전체 2위에 올랐다. 여러 인기 TTS 모델보다 높은 평가를 받았다는 게 구글의 설명이다.
현재 이 모델은 개발자라면 제미나이 API와 구글 AI 스튜디오에서 바로 사용할 수 있다. 기업 고객은 버텍스 AI(Vertex AI)를 통해 접근 가능하며, 일반 이용자는 구글 비즈에서 기능을 시험해볼 수 있다.
이번 공개는 생성형 AI 경쟁이 텍스트와 이미지에서 음성으로 빠르게 확장되고 있음을 보여준다. 특히 기업용 고객지원, 미디어 제작, 교육, 디지털 콘텐츠 제작 시장에서 ‘자연스러운 AI 음성’ 수요가 커지는 만큼, 제미나이 3.1 플래시 TTS가 관련 시장의 경쟁을 한층 더 끌어올릴 가능성이 커 보인다.
TP AI 유의사항 TokenPost.ai 기반 언어 모델을 사용하여 기사를 요약했습니다. 본문의 주요 내용이 제외되거나 사실과 다를 수 있습니다.

