구글, 브라우저 조작까지 해내는 AI 공개… Gemini 2.5 '컴퓨터 유즈' 전격 출시

| 김민준 기자

구글은 자사의 차세대 생성 AI 모델 ‘제미니(Gemini)’ 시리즈의 확장판으로, 실제 사람처럼 웹브라우저를 통해 인터넷을 탐색하고 작업을 수행할 수 있는 ‘제미니 2.5 컴퓨터 유즈(Gemini 2.5 Computer Use)’를 발표했다. 이 모델은 단순한 텍스트 응답을 넘어 웹 페이지를 해석하고, 클릭·타이핑·스크롤·드롭다운 조작·양식 작성 및 제출까지 일련의 UI 상호작용을 자동화할 수 있어 높은 주목을 받고 있다.

이번 신모델은 구글 딥마인드(DeepMind)가 개발한 제미니 2.5 프로 기반으로, 과거 ‘AI 모드’ 또는 ‘프로젝트 마리너’와 같은 에이전트 기능의 기반으로만 활용되었던 기술을 공개된 형태로 완전히 구현한 첫 사례다. 사용자가 요청을 입력하면, 모델은 함께 제공된 웹사이트의 스크린샷과 클릭 기록을 분석해 어떤 인터페이스 동작(UI 액션)을 실행할지 결정한다. 그 후, 실제 브라우저 상에서 해당 작업이 클라이언트 코드에 의해 실행되고, 다시 결과가 모델로 피드백되어 전체 루프가 완성된다.

구글은 시연 영상도 함께 공개했다. 예를 들어, 특정 반려동물 예약 정보가 담긴 사이트에서 캘리포니아 거주 동물의 데이터를 추출한 후, 이를 별도의 CRM 웹사이트에 입력해 고객으로 등록하고, 이후 특정 전문의사와의 후속 예약까지 완료하는 일련의 과정을 자동으로 수행하는 장면이 담겼다. 이는 단순한 질의응답형 AI가 아닌, 실시간 브라우저 작업을 대체할 수 있는 에이전트형 AI로서의 가능성을 보여준다.

다만 업계 반응은 다소 엇갈린다. 오픈AI(OpenAI)는 불과 하루 전 다단계 브라우저 작업을 자동화하는 ‘ChatGPT 에이전트’ 기술을 발표했으며, AI 스타트업 앤스로픽(Anthropic)은 전년도에 자사 모델 클로드에 컴퓨터 사용 능력을 일부 구현했다. 이들과 달리 구글의 이번 제미니 모델은 웹 브라우저 안에서만 동작하고, 운영체제 차원의 제어 기능은 아직 지원하지 않아 적용 범위에 제한이 있다는 지적도 나온다. 현재 지원되는 사용 명령은 총 13가지로, 데스크톱 작업을 포괄하기엔 부족하다는 평이다.

그럼에도 불구하고 구글 측은 모델의 웹 브라우저 최적화 성능을 강조한다. 실제 온라인 영역에서의 AI 작업 성능을 비교하는 여러 벤치마크 테스트, 예컨대 Online-Mind2Web, WebVoyager, AndroidWorld 등에서 제미니는 경쟁 모델을 상회하는 성과를 기록했다. 특히 브라우저 환경에서의 작업 반응속도와 정확성 측면에서는 최저 지연(latency)을 기록하며 우위에 있다는 주장도 덧붙였다.

개발자 접근성도 주목할 만한 요소다. 제미니 2.5 컴퓨터 유즈는 구글 AI 스튜디오와 Vertex AI를 통해 이용할 수 있으며, 가격 구조는 기존 제미니 2.5 프로 모델과 유사한 토큰 기준 과금 방식을 따른다. 백만 개 입력 토큰 당 1.25달러(약 1,800원), 출력 토큰은 짧은 경우 10달러(약 1만4,400원), 긴 경우 15달러(약 2만1,600원)다. 다만, 제미니 2.5 프로는 일부 무료 사용 옵션이 있지만, 컴퓨터 유즈 모델은 무료 지원이 전무하며 사용 초기부터 요금이 부과된다.

이번 신제품은 완전한 브라우저 제어 능력을 갖춘 AI로서 구글이 추구하는 차별화된 에이전트 전략의 한 축이다. 아직 데스크톱 제어나 광범위한 시스템 통합 등에서 경쟁사 대비 부족함이 있으나, 브라우저 중심의 최적화 성능과 상시 작동 안정성 면에서는 우위를 점하는 것으로 평가된다. 에이전트 AI 경쟁이 본격화되는 가운데, 제미니 2.5 컴퓨터 유즈는 웹 중심 생태계에서 고성능 자동화를 구현하려는 기업들에게 의미 있는 선택지가 될 전망이다.