AI2, 차세대 영상 AI 'Molmo 2' 공개… 시간까지 읽는 오픈소스 등장

| 김민준 기자

AI 연구기관 앨런 인스티튜트(AI2)가 차세대 멀티모달 인공지능 모델 ‘Molmo 2’를 공개하며 오픈소스 기반 AI 영상 이해 기술의 경쟁에서 새로운 기준을 제시했다. 이미지 인식 기술을 출발점으로 발전해온 이 기관은 이번 신모델을 통해 AI가 동영상에서 객체를 식별하고 시간 순서에 따라 이해할 수 있는 능력까지 구현했다고 밝혔다.

Molmo 2는 2024년에 출시된 Molmo의 후속 모델로, 이전 버전이 이미지 이해 및 태깅에서 업계 기준을 수립한 데 이어 이번에는 영상 속 요소들의 움직임과 상호작용을 분석하는 능력까지 포함했다. 특히 이번에 공개된 Molmo 2는 8B, 4B, Molmo 2-O 7B의 세 가지 버전으로 구성되며, 각각 다른 수준의 연산 성능과 활용 목적에 맞춰 설계됐다.

8B와 4B 모델은 알리바바의 오픈소스 모델인 ‘Qwen 3’를 기반으로 하며, Molmo 2-O는 AI2의 자체 모델 ‘Olmo’에 기반해 고차원 인지 능력에 최적화됐다. AI2 측은 특히 Molmo 2의 소형 모델들이 연산량과 데이터 사용량 대비 탁월한 성능을 보인다고 강조했다. 예컨대 4B 모델은 메타플랫폼의 PerceptronLM보다 월등히 적은 데이터(단 919만 개 영상)로 학습했음에도 경쟁 제품을 앞지르는 영상 추론 성능을 보여준 것으로 평가된다.

Molmo 2의 핵심 기능은 영상 이해에서 한 단계 진화한 형태로, 단순 재현을 넘어 시점별 사건 감지, 다수 객체 추적, 프레임 단위의 시간 줄기 분석 등을 수행한다. 실제로 이 기술은 자율주행, 물류 관리, 산업용 로봇, 보안 감시 분야에 적용할 수 있는 피지컬 AI 구현에 필수적인 요소로 평가된다. 물체를 인식하고, 속성과 동선을 이해하며, 미래를 예측하는 능력은 기계의 행동 결정에 직접적인 영향을 미치기 때문이다.

AI2는 Molmo 2 관련 주요 기능 구현을 위해 총 900만 개 이상의 멀티모달 예제를 포함한 9개의 신규 데이터셋도 함께 공개했다. 이 중 하나인 캡셔닝 데이터셋은 10만 개 이상의 영상과 평균 900 단어 이상의 설명 문장을 담아 상세한 시간 축 기반 분석을 가능케 한다. 다양한 객체 추적, 복합 장면 기반 QA, 장시간 영상 이해 과제를 위한 학습도 이뤄졌다.

Molmo 2 모델과 데이터셋, 평가 도구는 현재 깃허브, 허깅페이스, AI2 플레이그라운드 등에서 누구나 내려받아 활용할 수 있으며, 학습 코드도 조만간 공개될 예정이다.

AI2의 최고경영자 알리 파르하디(Ali Farhadi)는 “우리는 Olmo를 통해 진정한 오픈 AI의 기준을 만들었고, Molmo를 통해 포인팅 AI 시대를 열었으며, 이제 Molmo 2로 동영상과 시간 영역까지 확장에 성공했다”고 밝혔다. 영상 기반 AI 연구가 본격적인 상용화를 앞둔 가운데, Molmo 2는 그 기술적 토대를 제공할 강력한 오픈소스 툴킷으로 자리매김하고 있다.