GPT-4V도 눌렀다… 코신(CoSyn), 오픈소스 비전 AI 새 기준 제시

| 김민준 기자

AI 연구자들이 시각 인공지능(AI)의 접근성을 한층 넓히는 획기적인 오픈소스 도구를 공개했다. 펜실베이니아대학교와 앨런 인공지능 연구소가 개발한 '코신(CoSyn)'은 기존 폐쇄형 모델인 GPT-4V와 구글 제미니 1.5 플래시를 능가하는 성능으로, 오픈소스 기반 비전 모델의 새로운 기준을 제시하고 있다.

코신은 언어 모델의 코딩 능력을 활용해 합성 데이터를 직접 생성, 복잡한 시각 정보 이해에 최적화된 AI 훈련용 이미지를 만들어낸다. 이 방식은 자연 사진 위주의 기존 데이터 수집 방식에서 벗어나, 차트와 문서, 수학 식 같은 텍스트 중심 이미지에 특화된 훈련 데이터를 확보할 수 있도록 해준다. 특히 코드는 파이썬, LaTeX, HTML 등으로 구성되며 기계가 시각 정보를 처리하는 데 필요한 정밀한 데이터 구조를 복제할 수 있다는 점에서 주목받고 있다.

실제로 코신으로 훈련된 70억 매개변수 모델은 텍스트-이미지 이해 벤치마크 7개 항목에서 기존 최고 오픈소스 모델보다 3.9%p 높은 80.9%의 평균 점수를 기록하며 GPT-4V와 제미니 모델을 제쳤다. 특히 ‘NutritionQA’라는 영양 정보 이해 과제에서는 단 7,000장의 합성 이미지로만 학습된 모델이 수백만 장 실사 이미지로 훈련된 여타 상업용 모델을 뛰어넘었다.

이번 연구의 핵심은 ‘페르소나 중심’ 데이터 생성 방식이다. AI가 단조로운 출력을 반복하지 않도록 각 요청마다 ‘감성역 작가’나 ‘화학 수업을 준비하는 교사’ 같은 무작위 페르소나를 부여함으로써, 스타일과 내용 다양성을 확보했다. 이를 통해 생성된 데이터는 차트, 문서, 수학, 회로도 등 9개 유형을 아우르며, 11개 렌더링 도구와 20개 파이프라인에서 생성된다.

실제 산업 현장에도 코신이 접목되고 있다. 한 제조회사는 직원이 설치 작업을 마친 후 촬영한 사진을 기반으로 AI가 설치 절차를 자동 검증하도록 시스템을 구축했다. 복잡한 문서 자동화, 제조업의 품질관리 등 다양한 산업으로 확장 가능성이 확인된 셈이다.

코신은 웹 기반 UI 내 클릭 영역을 추론하는 에이전트 훈련용 합성 데이터까지 커버한다. 6만 5,000장의 합성 스크린샷만으로도 기존 130만 장 실사 이미지 모델을 압도하는 클릭 영역 추론 능력을 확보함으로써, 웹 브라우징 기반 디지털 태스크 자동화를 실현할 기반도 마련했다.

이 같은 합성 데이터 접근법은 법적 문제 회피 수단으로도 주목받고 있다. 기존 모델들이 저작권 있는 온라인 콘텐츠를 무단으로 학습해 소송에 휘말린 것과 달리, 코신은 학습 데이터와 소스를 모두 공개함으로써 투명성과 재현 가능성을 확보했다. 해당 오픈소스 코드는 물론, 40만 장에 달하는 이미지 데이터와 교육 스크립트 모두 누구나 접근 가능하다.

하지만 한계도 있다. 모델이 기존 학습 데이터의 편향을 그대로 반영하거나, 너무 유사한 데이터를 반복 생성할 수 있다. 또한 자연 사진이나 의료 영상 등은 렌더링이 어려워 현실 세계 전반으로 확장하기에는 개선 여지가 남아 있다.

그럼에도 불구하고 합성 데이터의 가능성은 업계에서도 빠르게 확산 중이다. 메타와 아마존 일부 팀이 실제 코신 데이터를 활용해 모델 훈련을 진행 중인 것으로 확인됐으며, 중소형 스타트업들이 오픈모델을 자사 서버에서 직접 구축해 비용 효율적으로 AI를 상용화하는 움직임도 늘고 있다.

이번 프로젝트는 단지 성능 향상이 아닌, 오픈소스 AI 개발도 충분히 경쟁력 있다는 강력한 메시지를 던진다. 상업용 모델들이 독점한 비전 AI 영역에서, 창의적인 아키텍처와 공개 협업으로도 혁신이 가능함을 입증했기 때문이다. 코신의 공동 저자인 양위에(Yue Yang)는 “우리가 올바른 데이터를 찾는다면, 모델 성능은 얼마든지 개선될 수 있으며 이는 사회 전체에 이로울 것”이라고 말했다.

궁극적으로 연구진의 비전은 AI가 단순히 보는 것에 그치지 않고, 사람처럼 상호작용하고 돕는 방향으로 진화하는 데 있다. 청각장애인을 위한 수어 이해, 시각장애인을 위한 복잡한 의료 이미지 설명 등, 인간 삶의 질 향상에 AI가 기여하는 미래를 현실로 만든다는 것이 다음 목표다.