엔비디아, 60분 음성 1초에 처리하는 AI 모델 공개… 오픈소스 ASR 새 판 짠다

| 김민준 기자

엔비디아(NVDA)가 최신 오픈소스 음성 인식 모델 ‘Parakeet-TDT-0.6B-v2’를 AI 모델 플랫폼 허깅페이스(Hugging Face)에 공개했다. 이 모델은 60분 분량의 오디오를 1초 만에 텍스트로 변환할 수 있을 정도로 강력한 성능을 지닌 것으로 평가받으며, 업계에서 가장 빠르고 상용 가능한 자동 음성 인식(ASR) 모델 중 하나로 주목받고 있다.

Parakeet-TDT-0.6B-v2는 기존 Parakeet 시리즈의 두 번째 버전으로, 2024년 1월 처음 공개된 후 4월에 일부 기능이 강화됐다. 특히 이번 모델은 허깅페이스 오픈 ASR 리더보드에서 평균 단어 오류율(WER) 6.05%를 기록하며 최상단에 올랐다. 이는 OpenAI의 GPT-4o-transcribe(2.46%) 및 ElevenLabs의 Scribe(3.3%)와 같은 독점 상용 모델에는 미치지 못하지만, 오픈소스 모델 중에서는 최고 수준이다.

해당 모델은 6억 개의 매개변수(parameter)를 통해 구성되며 FastConformer 인코더와 TDT 디코더 아키텍처를 조합해 사용한다. 엔비디아 GPU 기반 하드웨어에서 실행될 경우, 초당 처리 성능은 RTFx 3386.02로 측정돼 현존하는 ASR 모델 중 가장 빠른 수준을 자랑한다. 또 동시에 128개의 오디오 샘플을 배치 처리할 수 있어, 대규모 음성 데이터를 빠르게 분석하고 활용할 수 있다.

Parakeet-TDT-0.6B-v2는 음성 자막 생성, 음성 비서, 회의 기록 및 대화형 AI 서비스 등 광범위한 애플리케이션에 적용 가능하도록 설계됐다. 문장 부호 및 대문자 처리, 단어 단위 타임스탬프 기능도 지원하며, 파이썬(PyTorch) 기반의 엔비디아 NeMo 툴킷을 통해 개발자용 API로 쉽게 배포되고 있다.

훈련에는 Granary 데이터셋이 사용됐다. 이는 음성 인식 분야에서 가장 규모가 큰 데이터셋 중 하나로, 약 12만 시간 분량의 영어 음성 데이터로 구성돼 있다. 이 중 1만 시간은 사람이 직접 자막을 단 고품질 데이터이며, 나머지 11만 시간은 기존 ASR 모델을 활용해 생성한 준지도 학습(pseudo-labeled) 데이터다. 해당 데이터셋은 2025년 Interspeech 학회 발표 이후 공개될 예정이다.

Parakeet-TDT-0.6B-v2 모델은 다양한 환경에서도 높은 안정성을 보여준다. AMI, Earnings22, GigaSpeech, SPGISpeech 등 다양한 벤치마크에서도 일관된 결과를 냈으며, 전화 통화 음성 샘플이나 소음 환경에서도 성능 저하를 최소화했다. 엔비디아 측은 이 모델이 개인정보를 사용하지 않고 책임 있는 AI 개발 원칙에 따라 제작됐다고 밝혔다.

상용화를 고려하는 기업이나 스타트업에게도 이 모델은 매력적인 선택지다. Creative Commons CC-BY-4.0 라이선스가 적용돼 자유롭게 수정, 배포 및 상업적 활용이 가능하다. 엔비디아 GPU 환경에 최적화되어 있지만, 최소 시스템 요구사항이 2GB 램 수준으로 설정돼 있어 다양한 기기에서도 활용할 수 있다.

엔비디아는 최근 AI 칩 수요 증가와 함께 시장 가치가 급등하며 글로벌 초대형 테크 기업 반열에 올랐다. 하지만 이러한 하드웨어 중심 성장은 소프트웨어와 오픈소스 생태계로도 빠르게 확장되고 있다. 이번 Parakeet-TDT-0.6B-v2 공개는 그 일환으로, 엔비디아가 AI 산업 전반에서 핵심 기술 공급자로 자리매김하고 있음을 보여준다.