구글(GOOGL)이 자사의 AI 전략을 전면적으로 강화하며, 인간처럼 세상을 이해하고 행동할 수 있는 범용 인공지능 비서 구축에 나선다. 2025년 구글 I/O 개발자 행사에서 데미스 하사비스(Demis Hassabis) 구글 딥마인드 CEO는 젬미나이(Gemini) AI의 진화를 위한 장기 비전을 발표하며, 이를 실현할 핵심 기술로 ‘월드 모델(world model)’을 내세웠다.
하사비스는 월드 모델이 게임 ‘바둑’과 ‘스타크래프트’에서 인간을 능가한 AI 연구의 연장선에 있으며, 텍스트와 이미지 기반으로 상호작용형 3D 환경을 생성하는 지니 2(Genie 2) 모델의 성과 위에 구축됐다고 설명했다. 구글은 이를 통해 젬미나이가 단순한 챗봇을 넘어서, 물리 세계를 인지하고 복잡한 상황에서도 스스로 판단하고 대응하는 수준으로 진화할 수 있다고 보고 있다.
이러한 기술력은 젬미나이 라이브(Gemini Live)라는 실시간 인터페이스에 실험적으로 적용되고 있다. 사용자는 스마트폰 카메라나 화면을 공유함으로써 AI가 더 많은 맥락을 이해하고 정교한 도움을 제공받을 수 있게 된다. 미래에는 웨어러블 기기, 특히 스마트 글래스 등 다양한 형태의 디바이스에서도 이러한 AI가 작동할 것으로 예상된다.
이와 동시에 구글은 프로젝트 마리너(Project Mariner)를 통해 젬미나이의 주체적(agentic) 기능을 웹 환경에 구현하고 있다. 마리너는 현재 최대 10개의 작업을 동시에 처리할 수 있는 AI 에이전트 시스템으로, 온라인 쇼핑, 호텔 예약, 뉴스 검색 등 일상적인 작업을 자동화하는 데 초점을 맞추고 있다. 이 기능은 구글의 프리미엄 AI 서비스인 구글 AI 울트라(Google AI Ultra) 구독자들에게 우선 제공된다. 월 구독료는 249.99달러(약 36만 원)로 책정됐으며, 현재는 미국에서만 제공 중이다. 다만 구글은 조만간 글로벌 확장을 약속했다.
젬미나이 AI의 핵심 모델인 젬미나이 2.5 프로(Gemini 2.5 Pro)도 업데이트됐다. 특히 코딩 테스트 플랫폼인 웹데브 아레나(WebDev Arena)에서 1420이라는 최고 엘로(ELO) 점수를 기록하며 정점을 찍었고, 인간 선호도 기반 평가 지표인 LM아레나(LMArea)에서도 모든 범주 1위를 차지했다. 또한 '딥 씽크(Deep Think)'라는 새로운 추론 기능도 공개됐다. 이는 복잡한 수학 문제나 다중 모달 상황을 보다 심도 있게 분석할 수 있도록 고안되었으며, 현재는 제한된 테스터 그룹에서만 사용 가능하다.
개발자 지원도 대폭 강화됐다. 젬미나이 API와 버텍스 AI에 새롭게 도입된 오디오-비주얼 입력 기능, 원어민 스타일 음성 출력 기능이 대표적이다. 여기에 모델의 응답 근거를 요약해 설명해주는 ‘사고 요약(thought summaries)’과 안트로픽이 개발한 개방형 통신 프로토콜인 MCP(Model Context Protocol) 도입도 눈에 띈다. 이는 AI 모델과 써드파티 소프트웨어 간 통합을 훨씬 간결하게 할 수 있는 기술이다.
이번 발표는 구글이 AI 패권 경쟁에서 기술 심화와 생태계 확장이라는 두 마리 토끼를 동시에 잡기 위한 포석으로 풀이된다. 특히 인간 수준의 사고와 행동을 가능케 하는 AI 비서를 실현하겠다는 전략은 경쟁사 대비 차별화된 청사진이다. 하사비스는 “젬미나이를 보다 유용하고 일반적인 AI로 만들기 위한 여정의 핵심은 월드 모델”이라며, “맥락을 이해하고 디바이스를 초월해 계획을 세우고 행동할 수 있는 AI가 구글의 최종 목표”라고 강조했다.