마이크로소프트, 150억 파라미터 멀티모달 AI 모델 'Phi-4' 공개

| 김민준 기자

마이크로소프트는 오늘 150억 개의 파라미터를 가진 멀티모달 추론 모델 'Phi-4-reasoning-vision-15B'를 공개했다. 이 모델은 과학 차트와 같은 멀티모달 파일을 처리할 수 있는 하드웨어 효율을 중시하는 점이 특징이다. 핵심 알고리즘인 'SigLIP-2'는 이미지를 신경망이 이해할 수 있는 숫자 데이터로 압축하며, 'Phi-4 Reasoning'은 추론 모델로 지난해 4월 오픈소스로 공개됐다.

이 두 알고리즘은 '중간 융합' 방식으로 결합됐다. 일반적으로 인공지능 모델은 여러 개의 인공 뉴런 층으로 이루어지는데, 중간 융합 모델에서는 일부 층만 멀티모달 데이터를 처리한다. 이러한 방식은 하드웨어 사용량을 크게 줄이는 대신 출력 품질을 일부 포기하는 선택을 한다.

마이크로소프트에 따르면, 사용자는 모델의 추론 기능을 비활성화함으로써 인프라 사용량을 더욱 줄일 수 있다. 이 기능은 프롬프트를 통해 켜고 끌 수 있다. 대부분의 데이터는 오픈 소스로부터 훈련되었고, 내부에서 생성된 데이터 및 타깃된 데이터 인수로 품질을 보강했다. 이를 통해 모델의 유해한 출력을 방지할 수 있는 예제도 추가됐다.

Phi-4-reasoning-vision-15B는 여러 다른 모델과 비교해 높은 성능을 보였으며, 특히 'MathVista_Mini' 평가에서 구글의 'gemma-3-12b-it'보다 17% 높은 점수를 기록했다. Microsoft의 연구원들은 이 모델이 종합적인 성능에서 높은 평가를 받았다고 블로그에 밝혔다.

개발자들은 이 모델을 사용해 앱의 사용자 인터페이스와 상호작용할 수 있는 AI 에이전트를 구축할 수 있다. Phi-4-reasoning-vision-15B는 스크린샷을 기반으로 인터페이스 요소의 기능을 유추할 수 있다. 이 모델은 또한 과학 차트와 같은 복잡한 시각적 자산도 분석할 수 있다. 마이크로소프트는 데모에서 사용자가 토성의 사진을 업로드하고 행성이 기울어 보이는 이유를 질문하자 모델이 답변하는 모습을 공개했다.

이는 해가 바뀌고 사진을 찍은 망원경의 위치와 관련이 있다고 설명했다. 이 모델의 코드는 Hugging Face, GitHub 및 Azure에서 이용 가능하다.

본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.