독일 기반의 오디오 생성 AI 스타트업 미렐로(Mirelo)가 최근 시드 투자 라운드에서 4,100만 달러(약 591억 원)를 유치하며 주목받고 있다. 인덱스벤처스와 안드리센 호로위츠가 공동 리드했으며, 애틀랜틱 벤처스와 트리플포인트 캐피털도 자금을 지원했다.
미렐로는 영상에 맞춘 오디오 생성 기능에 집중하고 있으며, 주력 모델인 ‘SFX 1.5’는 음소거된 영상에서 드럼 연주 장면을 인식해 실제 드럼 연주 소리처럼 정밀히 음향을 생성하는 데 성공했다. 독립 외부 심사위원들의 평가에 따르면 이 모델은 기존 상용 오디오 생성 모델 대비 현저히 우수한 성능을 기록했다. 특히 원치 않는 소음을 줄이고, 빠르게 움직이는 영상에서도 음향과 장면의 싱크를 정밀히 맞출 수 있다는 점에서 차별화된 경쟁력을 보인다는 설명이다.
이 모델은 API는 물론 일반 사용자도 활용할 수 있는 ‘미렐로 스튜디오’ 앱을 통해 제공된다. 사용자는 텍스트 프롬프트 방식으로 다양한 버전의 오디오를 생성하고, 최적의 결과를 선택해 추가 편집할 수 있다. 해당 플랫폼은 기술 비전문가도 쉽게 AI 오디오 제작에 접근할 수 있도록 설계됐다.
미렐로는 이번 투자를 바탕으로 SFX 1.5를 넘어서는 차세대 모델 개발에 착수했다고 밝혔다. 새 알고리즘은 오디오 간의 일관성과 자연스러운 연결성을 더욱 강화할 것으로 기대되며, 향후 영화나 비디오 게임 등 고품질 콘텐츠 제작 분야로의 확장을 목표로 한다.
회사는 또한 엔비디아(NVDA)의 H100 및 H200 GPU를 기반으로 한 고성능 클러스터를 활용해 모델을 학습시키고 있으며, 해당 클러스터는 슬럼(Slurm) 분산 처리 시스템을 통해 운영되고 있음이 구인 공고를 통해 공개됐다. AI 프레임워크는 메타(META)의 파이토치(PyTorch)를 채택하고 있으며, 대용량 모델 분산 학습에 최적화된 FSDP(Fully Sharded Data Parallel) 기능을 적극 활용 중이다.
현재 미렐로는 디퓨전(diffusion)과 오토리그레시브(autoregressive) 구조에 전문성을 가진 AI 연구자를 채용 중이다. 특히 이 중 오토리그레시브는 트랜스포머 아키텍처를 포함하고 있으며, 이는 언어 모델뿐 아니라 음악 생성 등 오디오 AI에도 핵심 기술로 부상하고 있다. 엔비디아도 트랜스포머 기반 음악 생성 모델 ‘푸가토(Fugatto)’를 작년에 공개한 바 있다.
미렐로는 확보한 자금을 기반으로 연구 인력을 보강하고, 제품 다각화 및 글로벌 시장 진출을 가속화하며 음향 생성 AI 시장에서의 선도적 입지를 다진다는 계획이다.




