세일즈포스와 서던캘리포니아대학교(USC)의 공동 연구진이 기존 ‘포인트 앤 클릭’ 방식의 한계를 극복할 수 있는 새로운 AI 시스템 ‘CoAct-1’을 공개했다. 이 시스템은 그래픽 사용자 인터페이스(GUI) 탐색과 동시에 코드 실행이 가능한 하이브리드 방식으로 설계돼 복잡한 컴퓨터 작업을 더욱 빠르고 정확하게 처리할 수 있도록 한다.
기존의 GUI 기반 AI 에이전트는 인간 사용자처럼 화면을 인식하고 마우스 클릭과 키보드 입력을 통해 작업을 수행한다. 하지만 메뉴가 복잡하거나 실행 단계가 많은 업무에서는 시각 기반 에이전트가 실수를 범하기 쉽고, 이를 수정하는 데 시간이 오래 걸릴 수밖에 없다. 논문에 따르면 “UI 요소를 잘못 인식하거나 단 한 번의 클릭 실수로 전체 작업 흐름이 무너진다”는 점이 이런 방식의 구조적 한계다.
이를 해결하기 위해 CoAct-1은 세 가지 요소로 구성된 다중 에이전트 구조를 도입했다. 중심에는 전체 업무 흐름을 계획하고 조율하는 ‘오케스트레이터(Orchestrator)’가 있으며, 실제로 코드를 작성하고 실행하는 ‘프로그래머(Programmer)’와 시각 기반 작업을 처리하는 ‘GUI 오퍼레이터(GUI Operator)’가 유기적으로 협력한다. 오케스트레이터는 사용자의 목표를 분석해 하위 과제로 분할한 뒤 이를 가장 적합한 에이전트에 배분하며, 각 에이전트는 결과를 다시 오케스트레이터에 보고하면서 작업을 단계별로 이어간다.
이러한 방식은 특히 GUI 상에서 많은 클릭과 드래그가 필요한 복잡한 작업에서 효율성을 크게 높인다. 예를 들어, 이미지 파일을 찾고 크기를 조정한 뒤 압축하는 OS 수준의 작업을 CoAct-1은 몇 줄의 스크립트로 한 번에 처리할 수 있다. 실제 테스트에서는 CoAct-1이 총 369개의 현실적인 작업 시나리오가 포함된 OSWorld 벤치마크에서 60.76%의 성공률로 최신 AI 에이전트 중 최고 성능을 기록했다.
특히 중요한 점은 이 시스템이 평균 10.15단계 만에 작업을 완수했다는 것이다. 기존 대표적인 GUI 전용 에이전트인 GTA-1이 평균 15.22단계를 소요한 것과 비교하면 작업 단계가 33% 가까이 줄어든 셈이다. 연구진은 “작업 단계가 길어질수록 실패 확률이 높아진다”며, 코딩을 통한 단계 압축이 업무 효율성과 정확도를 동시에 끌어올리는 핵심 전략이라고 판단했다.
기업 현장의 활용 가능성도 높다. 세일즈포스의 응용 AI 연구 책임자인 션 쉬(Ran Xu)는 CoAct-1이 API 접근이 제한된 환경에서도 다양한 도구에 자동으로 적응할 수 있어 고객 지원, 세일즈, 마케팅 등 실무 전반에서 활용될 수 있다고 전망했다. 특히 여러 툴을 넘나드는 업무에 에이전트가 직접 코드를 작성하며 대응할 수 있기 때문에 기존 자동화 시스템보다 훨씬 높은 유연성과 실용성을 보여준다.
다만 CoAct-1이 성공적으로 현실에 안착하기 위해서는 보안과 신뢰성 확보가 반드시 뒤따라야 한다. 코드 실행이 가능한 구조는 잠재적인 보안 위협을 동반하며, 오케스트레이터가 익숙하지 않은 앱을 해석할 때 발생할 수 있는 판단 오류도 숙제로 남는다. 이에 대해 쉬는 “초기에는 사람의 감독이 반드시 필요하며, 샌드박스 환경에서 에이전트를 훈련시키는 방식으로 신뢰도를 높이고, 단계적으로 인간-에이전트 협업 체계를 구축하는 것이 중요하다”고 강조했다.
AI의 오작동 가능성 및 위험 요소를 방지하면서 복잡한 시스템 속에서의 현실적 자동화를 추구한다는 점에서 CoAct-1은 단순한 성능 개선을 넘어, 차세대 에이전트 시스템의 방향성을 제시하는 중요한 전환점이 될 수 있다. 앞으로 이 기술이 기업용 워크플로에 어떻게 통합될지 주목할 필요가 있다.