메타, 이미지→3D 복원까지… SAM 3·SAM 3D로 AI 비전 기술 진화

| 김민준 기자

메타(META)가 자사의 오픈소스 컴퓨터 비전 AI 모델인 ‘세그먼트 애니씽(Segment Anything)’의 진화 버전인 SAM 3와 SAM 3D를 공개하며 이미지 분할 기술력 강화에 나섰다. 이 두 모델은 고도화된 객체 인식 능력은 물론, 3차원 복원 기능까지 탑재해 사진과 영상 편집, AR·VR 콘텐츠 생성, 로보틱스 등 다양한 산업에 활용될 전망이다.

SAM 3는 이미지와 영상에서 특정 객체를 식별하고 추적하는 기능에 특화됐다. 여기에 텍스트 명령을 활용해 일정 부분을 편집하거나 변형할 수도 있어, 기존 모델들이 처리하지 못했던 복잡한 지시어에 대응할 수 있는 점이 특징이다. 예컨대 “빨간 야구 모자”라는 구체적인 설명을 통해 해당 대상만 정확히 분리할 수 있고, “앉아 있는 사람 중 빨간 모자를 쓰지 않은 사람”처럼 조건이 붙은 명령도 처리할 수 있다. 이는 단순 카테고리 인식에 머물던 기존 AI와 달리, 자연어와 시각 데이터 간의 연계를 크게 개선한 것이다.

이러한 기능은 메타가 최근 개발 중인 AI 영상 생성 앱 ‘Edits’는 물론, 쇼트폼 영상 플랫폼 ‘Vibes’에서 바로 활용될 예정이다. 사용자들은 특정 인물이나 사물을 선택해 특별한 효과를 적용하거나, 옷 색깔과 같은 디테일을 변경할 수 있다. 이처럼 정교한 편집 기능은 영상 제작과 SNS 콘텐츠의 표현 범위를 획기적으로 넓힐 수 있는 요소로 평가된다.

SAM 3D는 SAM 3의 기반 위에서 한층 더 진화한 모델로, 단순히 객체를 인식하는 것을 넘어서 그것을 3차원으로 복원하는 기술을 구현한다. 사진 속 인물을 입체적으로 재구성해 메타버스나 가상현실 환경에 삽입할 수 있게 되는 셈이다. SAM 3D는 ‘SAM 3D Objects’와 ‘SAM 3D Body’라는 두 개의 서브 모델로 구성되며, 각각 사물 및 장면 복원, 그리고 인체 형태 추정을 담당한다. 이를 통해 과거 사진 속 가족을 3D로 복원하거나, 실존하는 인물을 기반으로 한 게임 캐릭터 제작도 가능해진다.

특히 메타는 이 기술을 페이스북 마켓플레이스의 ‘공간에서 보기(View in Room)’ 기능에 이미 적용하고 있다. 예를 들어 테이블이나 램프 등의 제품을 구매하기 전, 자신의 집 구조에 배치한 모습을 3D로 확인할 수 있는 방식이다. 사용자 경험 전반을 한층 몰입감 있게 바꾸는 셈이다.

일반 사용자들도 메타의 ‘세그먼트 애니씽 플레이그라운드’를 통해 SAM 3 및 SAM 3D를 직접 체험해볼 수 있다. 이미지나 영상을 업로드하고 텍스트 지시어를 입력하면 다양한 객체를 분리하거나 새로운 시점에서 장면을 재구성할 수 있는 기능을 활용할 수 있다.

메타는 SAM 3의 모델 코드와 가중치를 오픈소스로 공개하는 동시에, 이를 평가할 수 있는 새로운 벤치마크와 데이터세트도 제공하고 있다. SAM 3D의 경우 일부 코드와 체크포인트만을 우선 공유하며, 향후 3D 복원 AI 연구 전반에 활용될 수 있도록 기반을 제공할 계획이다.

AI 비전 기술은 자율주행, 보안, 미디어, 헬스케어 등을 망라해 다양한 산업의 핵심 기술로 부상하고 있다. 메타가 공개한 이번 모델들은 특히 생성형 AI와 컴퓨터 비전의 융합 가능성을 입증한 사례로, 향후 자연어와 시각정보 기반의 AI 응용 분야에서 중요한 전환점이 될 것으로 보인다.