링크복사
공유
댓글
추천
스크랩
인쇄
글자크기

링크가 복사되었습니다.

글자크기

가

작게

가

보통

가

크게

가

매우크게

인공지능 테크

알리바바, 다국어 문자 삽입에 특화된 오픈소스 AI 모델 출시

김민준 기자

2025.08.05 (화) 03:15

알리바바 AI 연구팀이 다국어 텍스트 표현력을 갖춘 오픈소스 이미지 생성 모델 '큐안 이미지'를 공개했다. 미국 중심의 폐쇄형 생태계에 도전장을 내밀며 글로벌 시장에서 주목받고 있다.

알리바바, 다국어 문자 삽입에 특화된 오픈소스 AI 모델 출시 / TokenPost.ai

알리바바의 AI 연구팀 ‘큐안(Qwen)’이 오픈소스 기반의 새로운 이미지 생성 모델 ‘큐안 이미지(Qwen-Image)’를 출시했다. 이번에 공개된 모델은 기존 이미지 생성 AI가 상대적으로 취약했던 ‘텍스트 삽입 정확도’ 측면에서 눈에 띄는 성능을 보여주며 글로벌 AI 생태계에 새로운 균열을 예고하고 있다.

큐안 이미지는 영어와 중국어를 포함한 다국어 텍스트 삽입 기능을 정교하게 구현한 것이 특징이다. 단순한 단어 삽입을 넘어, 문단 단위의 배치와 복잡한 타이포그래피 등까지 처리할 수 있어 기존 솔루션과 비교해 한층 높은 표현력을 제공한다. 영화 포스터, 회의자료, 안내문구가 포함된 상업용 장면 구성 등에서도 높은 완성도를 유지한다.

이 모델은 누구든지 무료로 사용할 수 있도록 아파치 2.0 라이선스로 공개됐다. 허깅페이스(Hugging Face), 깃허브(GitHub), 모델스코프(ModelScope) 등 다양한 플랫폼에서 확인 가능하며, 시각적 프롬프트 기반의 이미지 비교 기능을 갖춘 'AI 아레나’ 리더보드를 통해 직접 평가도 체험할 수 있다. 다만, 텍스트 정확도 측면에서는 일부 프롬프트식 오류가 발생했으며, 이는 경쟁 모델인 미드저니(Midjourney)와 비교할 때 현저히 우위에 있다고 보기는 어려운 점도 확인됐다.

큐안 이미지의 성능은 해당 팀이 공개한 기술적 백서에 근거하고 있으며, 학습에는 수십억 개에 달하는 이미지-텍스트 쌍 데이터가 사용됐다. 데이터는 네 가지 범주(자연 이미지, 인간 이미지, 디자인 콘텐츠, 합성 텍스트 중심 데이터)로 나뉘며, 특히 합성 데이터는 다른 AI 모델이 생성한 이미지를 배제하고 자체 생산한 콘텐츠만을 활용해 훈련 품질을 높였다.

기술적으로는 큐안의 멀티모달 언어 모델 ‘Qwen 2.5-VL’, 시각적 세부 묘사를 담당하는 ‘VAE 인코더/디코더’, 그리고 텍스트와 이미지 융합을 담당하는 확산 기반 백본 모델 ‘MMDiT’가 결합돼 있다. 여기에 새로운 위치 인코딩 기술인 ‘MSRoPE’가 적용돼 토큰 간 공간 정렬의 정밀도를 끌어올렸다.

큐안 이미지는 여러 퍼블릭 벤치마크에서 유의미한 성과를 입증했다. 특히 영-중 다국어 텍스트 삽입, 복합 레이아웃 조정, 장문의 문단 이해 등 분야에서 기존 폐쇄형 모델들을 능가하는 결과를 기록했다. 인공지능 이미지 생성에 있어 가장 까다로운 텍스트 렌더링에서 독보적인 완성도를 자랑하며, AI 아레나 기준 전체 모델 중 3위, 오픈소스 모델 중에서는 최고 순위를 확보했다.

기업 관점에서도 이 모델은 다양한 부서와 워크플로우에 적합하다. 제품 설명서, 슬라이드 자료, 전자상거래 제품 이미지 등에서 다국어 텍스트를 함께 구성해야 하는 마케팅, 디자인 부서뿐 아니라, 합성 데이터가 필요한 컴퓨터비전 팀에게도 유용하다. 특히 제조, 교육, 유통 산업 등에서 프롬프트 기반 이미지 편집 기능과 커스터마이징 가능한 아키텍처를 통해 도입 가능성이 높다.

라이선스 상 상업적 활용도 가능하지만, 학습 데이터의 출처가 공개되지 않았고 저작권 방어조항(Indemnification)이 없다는 점은 일부 기업에서 민감하게 받아들일 수 있는 요소다. 어도비 파이어플라이나 오픈AI의 GPT 기반 모델은 이러한 법적 분쟁 발생 시 일정 수준의 법적 보호를 제공한다는 점에서 차이가 있다.

BIS “스테이블코인 전송을 결제로 보면 시장을 잘못 읽는다”

알파리포트 전문 보기 →

큐안팀은 모델 성능의 완성도 못지않게 오픈 생태계에 대한 기여에도 큰 의지를 드러내고 있다. 기업 및 개발자 커뮤니티에 피드백 제출과 기능 기여를 독려하며, 향후 텍스트 렌더링 개선과 다국어 편집 기능 강화를 위한 협업도 제안했다.

큐안 이미지의 등장은 제너레이티브 AI 시장에서 미국 주도의 폐쇄형 모델에 균열을 가하는 또 하나의 움직임이다. 특히 생성형 이미지의 품질뿐 아니라 실용성과 확장성 면에서도 상용화를 고려하는 기업에게 실질적인 대안으로 자리매김할 가능성이 높아지고 있다.

본 기사는 시장 데이터 및 차트 분석을 바탕으로 작성되었으며, 특정 종목에 대한 투자 권유가 아닙니다.

광고문의 기사제보 보도자료

#알리바바 #오픈소스AI #생성형이미지 #큐안이미지 #midjourney #허깅페이스

텔레그램에서 토큰포스트 속보 보기