리퀴드AI, 스마트폰도 돌릴 수 있는 초경량 멀티모달 모델 공개

| 김민준 기자

스마트폰과 다양한 소형 기기에서도 강력한 멀티모달 인공지능을 구현하려는 시도로, 리퀴드 AI가 차세대 비전-언어 모델 시리즈인 LFM2-VL을 전격 공개했다. 이 모델은 효율성과 정확도를 핵심 가치로 내세우며, 자원이 제한된 환경에서도 실시간 처리가 가능하도록 설계됐다. 기존 LFM2 아키텍처를 기반으로 한 이 시리즈는 텍스트와 이미지 등 다양한 형태의 입력을 동일한 모델 구조에서 자연스럽게 처리할 수 있는 기능을 갖췄다.

리퀴드 AI는 해당 모델이 기존 동급 모델 대비 GPU 추론 속도에서 최대 두 배 빠르다고 주장한다. 또한 다양한 기기에서 간편하게 사용할 수 있도록 경량화된 구조로 설계돼, 스마트폰과 노트북은 물론 웨어러블 기기와 임베디드 시스템에 이르기까지 폭넓은 응용이 가능하다. 대표 모델은 총 두 가지로, 각각 4억 5천만 개 파라미터를 가진 LFM2-VL-450M과 16억 개 파라미터의 LFM2-VL-1.6B로 구성된다.

양 모델 모두 최대 512x512 픽셀 해상도까지 원본 이미지를 직접 처리할 수 있으며, 더 큰 이미지에는 비중복 패치 기법과 썸네일 정보를 함께 사용해 전체 문맥과 세부 정보를 모두 잡아낸다. 이는 이미지 왜곡이나 과도한 리사이징 없이 정확도를 높이는 데 기여한다.

리퀴드 AI는 MIT 컴퓨터과학 및 인공지능연구소(CSAIL) 출신 연구진이 창업한 기업으로, 기존 트랜스포머 모델에서 벗어난 새로운 AI 아키텍처를 개발하고 있다. 이 회사의 핵심 기술인 LFM(리퀴드 파운데이션 모델)은 신호처리, 선형대수, 다이내믹 시스템 이론에 근거해 설계됐으며, 문서, 음성, 영상 등 다양한 시계열 데이터를 가볍고 유연하게 처리할 수 있는 데 강점을 가진다.

지난 7월에는 범용 엣지 AI 개발 도구인 LEAP를 출시하며 플랫폼 전략도 강화했다. 해당 도구는 아이폰, 안드로이드 등 운영체제와 상관없이 소형 언어 모델(300MB 이하)을 직접 실행할 수 있게 해, 개발자가 인터넷 연결 없이도 앱 내 AI 모델을 테스트하고 배포할 수 있다는 점에서 프라이버시와 속도를 강조하는 최근 흐름과도 맞물린다.

기술적으로는 언어 모델 백본에 시그립2(SigLIP2) 기반 비전 인코더, 멀티모달 투사기를 결합한 모듈식 구조를 채택했다. 투사기에는 픽셀 언셔플 기법이 적용된 이중 MLP가 포함돼 있으며, 처리 단위인 이미지 토큰 수와 패치 수 등을 조절해 속도와 품질 간 균형을 맞출 수 있도록 설정 가능하다. 모델 훈련에는 약 1,000억 개의 텍스트-이미지 쌍이 사용됐으며, 이 중 상당수가 오픈소스 데이터와 사내 생성 데이터를 기반으로 한다.

성능 역시 입증됐다. LFM2-VL-1.6B는 RealWorldQA에서 65.23점, InfoVQA에서 58.68점, 문자 인식 벤치마크 OCRBench에서 742점 등 주요 멀티모달 평가 지표에서 일관된 강세를 보였다. GPU 연산 속도 또한 동급 최상위 수준으로 평가된다.

해당 모델은 현재 허깅페이스(Hugging Face) 플랫폼을 통해 전 세계 개발자들에게 공개됐으며, 예제 파인튜닝 코드와 함께 무료로 다운로드 받을 수 있다. 라이선스는 아파치 2.0 기반의 자체 규약(LFM1.0)으로 공개됐으며, 연매출 1,000만 달러(약 144억 원) 이상 기업은 별도의 사용 조건이 적용될 예정이다.

리퀴드 AI는 LFM2-VL을 통해 고성능 멀티모달 AI를 탈중앙화하고, 미래 AI의 실행 환경이 클라우드 중심에서 벗어나 로컬 단말과 임베디드 플랫폼으로 확장될 수 있는 기반을 마련하고자 한다.