코히어, GPT-4.1 뛰어넘는 멀티모달 AI 공개… 엔터프라이즈 시장 정조준

김민준 기자

2025.08.02 (토) 07:20

코히어가 'Command R Vision'을 오픈웨이트로 공개하며 GPT-4.1보다 높은 성능으로 기업용 멀티모달 AI 시장을 본격 겨냥했다. 시각-언어 융합 기반으로 OCR, 차트 해석 등 고도 분석 역량이 강점이다.

코히어, GPT-4.1 뛰어넘는 멀티모달 AI 공개… 엔터프라이즈 시장 정조준 / TokenPost.ai

캐나다 AI 기업 코히어(Cohere)가 최신 비전 모델 ‘Command R Vision’을 공개하며 기업용 멀티모달 인공지능 시장을 정조준했다. 단 2개의 GPU만으로 작동하는 이 모델은 그래프, 도표, 스캔 문서 등 비정형 데이터 분석 역량에서 GPT-4.1를 포함한 주요 경쟁 모델들을 뛰어넘는 성능을 입증했다는 평가를 받는다.

코히어는 이 모델이 복잡한 제품 설명서의 다이어그램 해석부터 사고 감지를 위한 사진 분석까지, 기업 환경에서 필요로 하는 고난도 비전 태스크를 전방위적으로 지원한다고 밝혔다. ‘Command A’라는 기존 텍스트 모델 아키텍처를 기반으로 개발됐으며, 이미지 속 텍스트도 읽어낼 수 있는 시각-언어 융합 모델로 설계됐다.

특히 이 모델은 문서 이미지의 광학문자판독(OCR), 다양한 차트 판독, 기업 문서 인식 등에 최적화돼 있어, 파일 시스템 기반에서 시각적 정보 추출이 중요한 ‘딥 리서치’ 수요에 부합한다. 코히어는 해당 모델이 기업의 총소유비용(TCO)을 줄이고, 검색 중심의 활용에 특화돼 있다고 강조했다.

비전 모델의 학습은 세 단계로 구성됐다. 시각-언어 정렬 단계를 거쳐 감독 학습(SFT), 마지막으로 인간 피드백 기반의 강화 학습(RLHF)을 통해 완성도를 높였다. 이 같은 아키텍처는 LLMS 분야에서 주목받는 LLaVA 방식을 채택했으며, 이미지를 3,328개 토큰 분할 수준으로 처리할 수 있는 촘촘한 언어 처리 구조를 갖췄다.

성능 측면에서도 Command A Vision은 GPT-4.1, 메타(META)의 Llama 4 Maverick, 미스트랄(Mistral)의 Pixtral 등 상위권 모델들과의 9개 벤치마크 테스트에서 압도적 우위를 나타냈다. 특히 ChartQA, OCRBench, TextVQA 등의 과제에서 평균 83.1%의 점수를 기록해 GPT-4.1의 78.6%, Llama 4의 80.5%를 웃돌았다.

코히어는 이번 모델을 오픈웨이트 방식으로 공개하며, 폐쇄형 모델 의존에서 벗어나려는 기업 및 개발자를 적극 유인하고 있다. 일선 개발자들 사이에서는 손글씨 인식 정밀도, 이미지 내 낙서 인식 능력 등을 중심으로 긍정적 반응이 확산되고 있다. 멀티모달 AI가 점차 실무 현장에 깊숙이 스며드는 가운데, 코히어의 이번 행보는 차세대 엔터프라이즈 AI 경쟁의 방향성을 가늠하게 한다.

[토큰분석] 토큰화 세계의 세 갈래 길… 단일·공통·호환 원장이 가르는 ‘원자적 결제’의 운명

알파리포트 전문 보기 →

본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.

광고문의 기사제보 보도자료

#코히어 #멀티모달AI #CommandR #비전모델 #GPT4.1 #딥러닝 #엔터프라이즈AI

텔레그램에서 토큰포스트 속보 보기