엔비디아, 100만시간 음성 데이터셋 공개…유럽·저자원 언어 AI 판도 바꾼다

| 김민준 기자

지구상에 존재하는 7,000여 개 언어 가운데 인공지능이 지원하는 언어는 극소수에 불과하다. 이에 엔비디아(NVDA)가 유럽 언어 전용 고품질 AI 학습용 데이터셋 ‘그래너리(Granary)’를 대규모로 공개하며, 다국어 음성 인식 및 번역 AI의 진화를 이끌고 있다.

그래너리는 엔비디아가 카네기멜론대학교, 브루노 케슬러 재단과 공동으로 개발한 오픈소스 음성 데이터 집합으로, 총 100만 시간 분량의 다국어 오디오 데이터를 포함한다. 이 중 음성 인식용 데이터는 약 65만 시간, 음성 번역용 데이터는 약 35만 시간으로, AI 학습에 활용 가능한 수준으로 정제됐다. 해당 데이터는 깃허브를 통해 누구나 자유롭게 열람하고 사용할 수 있어, 유럽 지역을 비롯한 비주류 언어권 AI 개발자들의 접근성을 획기적으로 높였다.

이 데이터셋은 유럽연합(EU)의 공식 언어 24개 가운데 거의 모든 언어를 포함하고 있으며, 그 외에도 러시아어와 우크라이나어, 그리고 상대적으로 학습용 자료가 부족한 크로아티아어, 에스토니아어, 몰타어 등도 포함됐다. 엔비디아 측은 이처럼 언어 자원이 희소한 지역의 음성 데이터까지 포함함으로써, 글로벌 개발자들이 소량의 데이터로도 효과적인 음성 AI 시스템을 구축할 수 있는 포용성 높은 기반을 마련했다고 설명했다.

엔비디아 연구팀은 기존 다국어 음성 데이터셋과 비교해 동일 수준의 음성 인식 정확도를 얻는 데 필요한 학습량이 절반에 불과하다는 연구 결과도 제출했다. 이는 그래너리가 얼마나 정교하게 설계됐는지를 방증하며, AI 성능 향상과 추론 비용 절감이라는 두 마리 토끼를 잡을 수 있음을 시사한다.

그래너리와 함께 공개된 두 개의 신규 AI 모델 카나리(Canary)와 파라킷(Parakeet) 역시 주목할 만하다. 카나리는 10억 개의 파라미터를 갖추고도 기존 대형 모델과 유사한 번역·필기 정확도를 제공하면서도 처리 속도는 최대 10배 빠르며, 실제 차세대 스마트폰에서도 온디바이스 실시간 번역이 가능할 정도로 경량화돼 있다. 반면 파라킷은 대량 오디오 처리에 최적화된 구조로, 총 24분 분량의 음성도 단 한 번의 처리로 식별하고 자동으로 언어를 감지해 텍스트로 전환하는 기능을 지원한다.

두 모델은 정확한 시점 구분과 문장부호, 대소문자 구분까지 반영해 결과물을 제공하며, 현재 기업용 및 연구용으로 널리 활용될 수 있도록 비교적 자유로운 라이선스 하에 배포되고 있다.

또한 엔비디아는 그래너리 데이터를 기반으로 카나리와 파라킷을 학습한 구체적 방법론과 튜닝 가이드를 깃허브를 통해 공개했으며, 데이터셋 자체는 허깅페이스(Hugging Face) 플랫폼에서도 자유롭게 다운로드할 수 있다.

다국어 AI 기술 경쟁이 치열해지는 가운데, 이번 엔비디아의 발표는 특히 유럽 시장과 저자원 언어권 AI 개발에 실질적인 전환점을 마련할 것으로 평가된다. 아야(AYA), 글라스(Glaive), 메타(META) 등 글로벌 기업들의 다국어 모델 개발도 치열해지고 있는 만큼, 그래너리는 이러한 경쟁 구도에서 중요한 전략적 자원으로 작용할 가능성이 높다.