메타(META)가 개발한 새로운 인공지능 모델 'V-JEPA 2'가 실제 환경에서의 물리적 직관을 갖춘 로봇 구현에 한 걸음 더 다가섰다. 이 모델은 기존 영상 데이터를 기반으로 외부 개입 없이 스스로 학습한 ‘세계 모델’을 활용해, 로봇이 한 번도 경험하지 못한 환경에서도 물체를 인식하고 조작할 수 있도록 설계됐다. 이는 물류 및 제조업 등 다양한 산업 현장에서 자동화 수준을 획기적으로 끌어올릴 수 있는 기술로 평가된다.
V-JEPA 2는 비디오 기반 자기 지도 학습을 통해 사물의 움직임과 물리적 상호작용을 이해한다. 메타는 이 모델이 장면 내 객체의 변화와 그로 인한 결과를 예측하고, 특정 목표를 달성하기 위한 행동 순서를 계획할 수 있다고 설명했다. 초기 학습 단계에서는 100만 시간 이상 분량의 비디오를 활용해 물리 법칙 전반에 대한 추상적인 개념을 익혔고, 이후 단 62시간 분량의 로봇 조작 영상과 제어 명령 데이터를 통해 실제 행동결과 간 인과 관계를 체득했다.
기술적 핵심은 메타가 새롭게 설계한 '비디오 결합 임베딩 예측 아키텍처(V-JEPA)'다. 장면의 주요 특징을 요약한 데이터 임베딩을 생성한 후, 후속 장면의 상태를 추론하는 방식으로 작동한다. 픽셀 단위 예측을 시도하는 기존 생성형 AI들과 달리, 이 모델은 물체의 위치나 이동 경로 등 고차원적 요소에 초점을 맞추기 때문에 연산 효율성이 뛰어나다. 12억 개의 파라미터 규모로 단일 GPU에도 구동될 만큼 가볍고, 추론 속도도 빨라 현장 배치에 유리하다.
특히 주목할 점은 ‘제로샷(zero-shot) 계획’ 능력이다. 한 번도 본 적 없는 물체나 낯선 환경에서도 목표 이미지를 기반으로 행동을 예측하고, 그 예측을 따라 실시간으로 작업을 수행할 수 있다. 메타는 실제 자사 연구소에서 훈련 데이터와 다른 환경 및 로봇에 해당 모델을 적용해, 평균 65~80%의 성공률로 물체 집기 작업을 수행했다고 밝혔다.
기업 관점에서 V-JEPA 2는 로봇 기술의 범용화를 앞당길 수 있는 전환점이 될 것으로 보인다. 동일한 모델을 기반으로 소비자용 데스크탑 로봇에서부터 산업용 자동화 설비까지 손쉽게 이식할 수 있다는 점은 AI 개발 및 유지 비용 절감에 있어 상당한 이점을 제공한다. 또한 클라우드 기반 대규모 연산 없이도 공장 내부나 엣지 환경에서 동작 가능하다는 점도 기업의 데이터 보안 및 규제 대응 측면에서 매력적인 대안이다.
메타는 이번 모델과 훈련 코드를 공개하며, AI의 물리 세계 이해를 위한 개방형 생태계 구축에 나섰다. 궁극적으로는 이 연구 성과가 '인간 수준의 물리 직관'을 지닌 차세대 인공지능 개발의 토대로 작용할 수 있을 것으로 기대하고 있다. 산업용 로봇은 물론 가상 공간 디지털 트윈 구축, 예측 정비 시스템 등 폭넓은 비즈니스 영역에서 활용될 가능성이 제기된다.