홍콩發 오픈CUA, 오픈AI 대항마로 부상…기업용 AI 자동화 게임 체인저

| 김민준 기자

홍콩대학교(HKU)와 협력 기관이 개발한 오픈소스 프레임워크인 ‘오픈CUA(OpenCUA)’가 기업용 AI 시스템 개발의 새 장을 열고 있다. 오픈CUA는 컴퓨터에서 자율적으로 작업을 수행하는 컴퓨터 사용 에이전트(CUA) 개발을 지원하는 도구, 데이터, 학습 방법론을 하나로 묶은 전체 생태계를 제공하며, 오픈AI(OpenAI)나 앤트로픽(Anthropic) 등 선도 AI 기업의 독점 모델과 경쟁 가능한 성능을 입증하며 강력한 존재감을 드러냈다.

CUA는 웹사이트 탐색, 소프트웨어 조작 등 인간의 컴퓨터 사용을 모방해 복잡한 업무를 자동화하는 데 초점을 맞춘 기술이다. 하지만 지금까지 가장 뛰어난 성능을 보인 모델들은 폐쇄적인 독점 구조로 운영됐고, 학습 데이터나 알고리즘 설계, 개발 방식이 공개되지 않아 투명성과 재현성이 부족했다. 연구진은 "기술 발전과 안전성 확보를 위해서는 완전히 열린 CUA 프레임워크가 필요하다"고 강조했다.

오픈CUA는 이 같은 한계를 해결하기 위한 시도로, 특히 대규모 데이터 수집과 모델 확장성을 전제로 설계됐다. 핵심 도구인 ‘에이전트넷 툴(AgentNet Tool)’은 annotator의 컴퓨터에서 사용자의 화면, 마우스 및 키보드 입력, 시각 요소 구조까지 자동으로 기록한 후 이를 ‘상태-행동 쌍’으로 구성해 학습 가능한 데이터로 정제한다. 이 방식으로 수집된 AgentNet 데이터셋은 윈도우, 맥OS, 우분투 등 다양한 운영 체제와 200여 개 애플리케이션에서 추출한 2만 2,600건 이상의 실제 작업 시연을 포함한다.

특히 개인정보가 민감한 기업 환경을 고려한 다층 보안 메커니즘이 주목된다. 작업자는 제공 전 데이터를 완전히 검토할 수 있고, 이후 수작업 검수와 대형 AI 모델에 의한 자동 민감정보 식별 단계를 거친다. 논문 공동 저자인 왕신위안(Xinyuan Wang) HKU 박사과정 연구원은 "민감 데이터에 대응 가능한 산업 수준의 보안 설계로, 금융이나 고객 정보를 다루는 기업도 안심하고 도입이 가능하다"고 설명했다.

오픈CUA는 평가 정확도 향상을 위해 ‘AgentNetBench’라는 오프라인 벤치마크도 따로 제작했다. 작업의 각 단계마다 다양한 정답 행동을 제시해, 에이전트의 실제 수행 능력을 효율적으로 검증할 수 있도록 했다는 점에서 실용성을 끌어올렸다.

무엇보다 오픈CUA가 제안한 학습 방식은 기존 오픈소스 모델 대비 뚜렷한 성능 격차를 만들어냈다. 단순히 시연 데이터를 학습시키는 데 그치지 않고, 각 행동에 대해 ‘생각의 흐름(Chain-of-Thought)’을 생성해 구체적인 입력 이유와 작업 계획, 실행 단계를 자연어로 구성하는 새로운 학습 흐름을 도입한 것이다. 이를 통해 모델은 단편적인 행동이 아니라 작업의 전후 맥락과 목적을 이해하며 더 일반화된 추론 능력을 터득할 수 있게 된다.

이 접근법은 기업 내 고유한 소프트웨어 환경에서도 적용이 가능하다. 기업이 자체 워크플로우를 시연 형태로 녹화하면, 오픈CUA의 데이터 처리 파이프라인을 통해 자동으로 학습 데이터를 생성해 전용 CUA를 구축할 수 있다는 것이 연구진의 설명이다.

오픈CUA 프레임워크를 활용해 총 30억~320억 매개변수를 갖춘 다양한 오픈소스 시각-언어 모델(VLM)을 학습시킨 결과, 가장 규모가 큰 320억 매개변수 모델(OpenCUA-32B)은 오픈소스 기준 최고 성능을 경신했다. OSWorld-Verified 기준에서 오픈AI GPT-4o 기반 모델은 물론 앤트로픽의 폐쇄형 모델과도 체감 성능 격차를 좁히는 성과를 기록했다.

왕 연구원은 "리눅스에서 EC2 인스턴스 생성, MTurk에서 데이터 라벨링 설정 등 반복적인 절차가 포함된 업무들이 이미 AgentNet에서 다수 확보돼 있다"며, "이처럼 절차가 일정한 기업 업무에서 CUA의 자동화 성과가 매우 클 것"이라고 밝혔다.

단, 성공적인 실무 도입을 위해서는 안전성과 신뢰성 확보가 전제돼야 한다는 게 연구진의 판단이다. 왕은 "실제 운영 환경에서 에이전트가 시스템을 변경하거나 예기치 못한 오류를 유발하지 않도록 철저한 검증이 이뤄져야 한다"고 강조했다.

오픈CUA는 깃허브와 허깅페이스 등에서 코드, 데이터셋, 학습된 파라미터를 전면 공개하고 있다. 향후 고도화된 오픈소스 CUA들이 상용 모델의 대안을 넘어, 업무 수행 방식을 근본적으로 바꾸는 계기가 될 가능성도 제기된다. 왕은 인간과 AI가 분업하는 새로운 업무 방식을 상정하며, "인간은 전략적 방향을 설정하고, AI는 구체적인 실행을 맡는 협업 모델이 정착될 것"이라는 전망을 내놨다.