토픽

맨위로 가기
  • 공유 공유
  • 댓글 댓글
  • 추천 추천
  • 스크랩 스크랩
  • 인쇄 인쇄
  • 글자크기 글자크기
링크 복사 완료 링크가 복사되었습니다.

코히어, GPT-4.1 뛰어넘는 멀티모달 AI 공개… 엔터프라이즈 시장 정조준

프로필
김민준 기자
댓글 0
좋아요 비화설화 1

코히어가 'Command R Vision'을 오픈웨이트로 공개하며 GPT-4.1보다 높은 성능으로 기업용 멀티모달 AI 시장을 본격 겨냥했다. 시각-언어 융합 기반으로 OCR, 차트 해석 등 고도 분석 역량이 강점이다.

 코히어, GPT-4.1 뛰어넘는 멀티모달 AI 공개… 엔터프라이즈 시장 정조준 / TokenPost.ai

코히어, GPT-4.1 뛰어넘는 멀티모달 AI 공개… 엔터프라이즈 시장 정조준 / TokenPost.ai

캐나다 AI 기업 코히어(Cohere)가 최신 비전 모델 ‘Command R Vision’을 공개하며 기업용 멀티모달 인공지능 시장을 정조준했다. 단 2개의 GPU만으로 작동하는 이 모델은 그래프, 도표, 스캔 문서 등 비정형 데이터 분석 역량에서 GPT-4.1를 포함한 주요 경쟁 모델들을 뛰어넘는 성능을 입증했다는 평가를 받는다.

코히어는 이 모델이 복잡한 제품 설명서의 다이어그램 해석부터 사고 감지를 위한 사진 분석까지, 기업 환경에서 필요로 하는 고난도 비전 태스크를 전방위적으로 지원한다고 밝혔다. ‘Command A’라는 기존 텍스트 모델 아키텍처를 기반으로 개발됐으며, 이미지 속 텍스트도 읽어낼 수 있는 시각-언어 융합 모델로 설계됐다.

특히 이 모델은 문서 이미지의 광학문자판독(OCR), 다양한 차트 판독, 기업 문서 인식 등에 최적화돼 있어, 파일 시스템 기반에서 시각적 정보 추출이 중요한 ‘딥 리서치’ 수요에 부합한다. 코히어는 해당 모델이 기업의 총소유비용(TCO)을 줄이고, 검색 중심의 활용에 특화돼 있다고 강조했다.

비전 모델의 학습은 세 단계로 구성됐다. 시각-언어 정렬 단계를 거쳐 감독 학습(SFT), 마지막으로 인간 피드백 기반의 강화 학습(RLHF)을 통해 완성도를 높였다. 이 같은 아키텍처는 LLMS 분야에서 주목받는 LLaVA 방식을 채택했으며, 이미지를 3,328개 토큰 분할 수준으로 처리할 수 있는 촘촘한 언어 처리 구조를 갖췄다.

성능 측면에서도 Command A Vision은 GPT-4.1, 메타(META)의 Llama 4 Maverick, 미스트랄(Mistral)의 Pixtral 등 상위권 모델들과의 9개 벤치마크 테스트에서 압도적 우위를 나타냈다. 특히 ChartQA, OCRBench, TextVQA 등의 과제에서 평균 83.1%의 점수를 기록해 GPT-4.1의 78.6%, Llama 4의 80.5%를 웃돌았다.

코히어는 이번 모델을 오픈웨이트 방식으로 공개하며, 폐쇄형 모델 의존에서 벗어나려는 기업 및 개발자를 적극 유인하고 있다. 일선 개발자들 사이에서는 손글씨 인식 정밀도, 이미지 내 낙서 인식 능력 등을 중심으로 긍정적 반응이 확산되고 있다. 멀티모달 AI가 점차 실무 현장에 깊숙이 스며드는 가운데, 코히어의 이번 행보는 차세대 엔터프라이즈 AI 경쟁의 방향성을 가늠하게 한다.

<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>

광고문의 기사제보 보도자료

많이 본 기사

관련된 다른 기사

댓글

댓글

0

추천

1

스크랩

스크랩

데일리 스탬프

0

말풍선 꼬리

매일 스탬프를 찍을 수 있어요!

데일리 스탬프를 찍은 회원이 없습니다.
첫 스탬프를 찍어 보세요!

댓글 0

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요

0/1000

댓글 문구 추천

좋은기사 감사해요 후속기사 원해요 탁월한 분석이에요
1