메타플랫폼(Meta Platforms)이 오디오 편집의 패러다임을 뒤바꿀 신형 AI 모델을 발표했다. 자연어 프롬프트 한 줄로 소리를 선택·분리할 수 있는 ‘SAM 오디오(SAM Audio)’가 그것이다. 이미지나 영상 편집에 기계학습 기반 분할 기술을 적용했던 전작들과 달리, 이번 모델은 복잡한 오디오 트랙 내 요소를 손쉽게 구분하고 정제할 수 있게 한다는 점에서 특히 주목받고 있다.
SAM 오디오는 기존의 고정적인 오디오 편집 툴과 달리, 자연어 텍스트, 시각 정보, 시간 범위 등 다양한 입력 방식을 통합해 자유도 높은 사운드 조작이 가능하다. 예컨대 밴드 연주 녹음에서 보컬만 분리하거나, 시끄러운 도시 소음을 제거하고 인터뷰 음성만 남기는 식의 정교한 작업이 사용자 프롬프트 하나로 가능해졌다. 메타는 이를 콘텐츠 크리에이터, 팟캐스터, 영상 제작자, 심지어 과학 연구와 청각 보조 기술까지 폭넓은 분야에 응용할 수 있다고 설명했다.
SAM 오디오는 메타의 ‘세그먼트 애니싱 모델(Segment Anything Model)’ 계열에 속한다. 지금까지 메타는 이 기술을 이미지(SAM 3), 영상(SAM 3D) 편집에 집중해왔다. 반면 이번 신모델은 음향 신호를 조작 대상으로 삼았고, 이를 가능케 한 핵심 기술이 바로 자체 개발한 멀티모달 엔진 ‘Perception Encoder Audiovisual(PE-AV)’이다. 이 엔진은 마치 사람의 귀처럼 작동해 사용자가 지정한 특정 소리를 정확히 파악하고 분리할 수 있게 돕는다.
기술적 측면에서 SAM 오디오는 세 가지 방식의 프롬프트를 제공한다. 가장 기본적인 텍스트 입력 외에도, 영상에서 특정 인물이나 사물을 클릭해 해당 사운드를 선택하는 시각 기반 조작, 특정 시간대를 지정해 발생하는 소리를 추출하는 시간 스팬 기반 프롬핑 기능이 포함됐다. 이들을 조합함으로써 복잡한 오디오 환경에서도 정밀한 사운드 제어가 가능하다는 것이 메타의 설명이다.
메타는 SAM 오디오를 독립 AI 성능 평가 지표인 ‘SAM 오디오-벤치’를 통해 타 모델과 비교했을 때도 경쟁력을 입증했다고 주장하고 있다. 특히 텍스트 방식과 시간 범위 프롬프트를 함께 사용할 경우 단일 방식보다 분리 정밀도가 현저히 높아졌다고 밝혔으며, 실시간 처리보다 빠른 속도(RTF ≈ 0.7)로 고성능·대용량 작업도 무리 없이 소화할 수 있다고 덧붙였다.
다만, 현재 버전은 오디오 기반 프롬프트를 지원하지 않으며, 프롬프트 없이 전체 오디오를 자동으로 분리하는 기능은 제공하지 않는다. 또한 합창단이나 오케스트라처럼 유사한 소리가 겹치는 상황에서는 다소 취약한 성능을 보인다. 메타 측은 이 같은 한계를 인정하면서도 기술 고도화를 통해 점차 개선해나갈 것이라고 밝혔다.
이번 기술은 현재 누구나 무료로 체험해볼 수 있는 메타의 Segment Anything Playground에서 공개됐다. 메타는 이 기술이 특히 접근성 확대 측면에서도 큰 잠재력을 가진다고 강조하며, 청각 보조기기 제조사 스타키(Starkey Laboratories) 및 장애인 창업자 지원단체 2겟허인터내셔널(2gether-International)과 함께 다양한 실증 프로젝트를 진행 중이다. 오디오 편집의 진입장벽을 대폭 낮춘 SAM 오디오는 생성형 AI 기술의 새로운 쓰임새를 제시하며, 향후 디지털 콘텐츠 제작 전반에 걸쳐 또 다른 혁신의 물꼬를 틀 것으로 기대된다.
<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>