구글(GOOGL)의 인공지능 연구소 딥마인드(DeepMind)가 차세대 AI 에이전트 'SIMA 2'를 공개했다. SIMA 2는 한 번도 본 적 없는 3D 가상 세계 속에서도 문제를 이해하고 스스로 해결책을 찾아가는 능력을 갖춘 것으로 평가받는다. 딥마인드는 이 기술이 궁극적으로는 현실 세계의 로봇을 움직일 범용 AI로 향하는 핵심 전환점이라고 강조했다.
이번에 공개된 SIMA 2는 약 18개월 전 첫 선을 보였던 SIMA의 후속 버전이다. SIMA는 '확장 가능한 명령 기반 다중 세계 에이전트(Scalable Instructable Multiworld Agent)'의 약자로, 초기에는 단순한 지시만 수행할 수 있었다. 하지만 최신 모델인 SIMA 2는 구글의 대표적인 대형 언어 모델 제미니(Gemini)를 기반으로 개발되면서 복잡한 명령도 이해하는 수준으로 진화했다. 개발팀은 SIMA 2가 대화가 가능하며, 다양한 복합 과제를 인간처럼 시행착오를 통해 학습하고 완수할 수 있다고 설명했다.
특히 주목할 부분은 SIMA 2가 이전에 접하지 않았던 공간에서도 스스로 방향을 잡고 목표를 파악한 뒤 즉시 행동에 나선다는 점이다. 이 같은 능력은 딥마인드의 또 다른 생성형 모델 제니3(Genie 3)로 새롭게 구현된 가상 환경에서도 마찬가지로 발휘됐다. 연구진은 “예컨대 이전 게임에서 학습한 '채굴(mining)' 개념을 바탕으로 전혀 다른 게임에서 '수확(harvesting)' 작업을 수행하는 식의 개념 전이가 가능하다”고 밝혔다.
이번 업그레이드는 단순한 지시 이행을 넘어 자율적 파악과 추론, 행동으로까지 나아간 것이 특징이다. 사용자는 텍스트는 물론 음성이나 이미지로도 SIMA 2에 명령을 내릴 수 있으며, 모델은 이 과정을 통해 경험을 축적하고 빠르게 적응한다. 실제로 첫 번째 버전에서는 평균 31%의 과제 수행률을 보였지만, SIMA 2에서는 65%로 급등했으며 이는 인간의 평균인 71%에 근접한 수준이라고 딥마인드는 밝혔다.
또한 SIMA 2는 인간의 시범을 보며 배우고, 이후 스스로 수행하는 ‘시연 기반 자율 학습(demo-to-autonomy)’ 기능도 갖추고 있다. 삼성전자, 테슬라 같은 제조업 대기업들이 비슷한 자율 시스템을 개발해온 가운데, SIMA 2는 공장, 창고 등 실제 환경에서도 활용될 가능성을 염두에 두고 설계됐다. 딥마인드는 “SIMA 2가 가상 환경에서 쌓은 내비게이션, 도구 활용, 협업 등의 기술은 현실 공간으로 손쉽게 이식이 가능하다”고 강조했다.
딥마인드의 선임 연구원 프레드릭 베스(Frederic Besse)는 “로봇이 현실 과제를 수행하려면 고차원적 목표 이해력과 정교한 물리 연산을 병행해야 한다”면서 SIMA 2가 이 두 조건을 모두 향하고 있다고 말했다. 다만 아직 극도로 긴 다단계 작업이나, 시각 인식이 필요한 복합 과제에서는 부족함이 남아 있다는 점도 언급했다.
이번 SIMA 2의 등장은 범용 인공지능(Artificial General Intelligence) 개발을 향한 중대한 진전을 의미한다. 상호작용적 환경에서 스스로 학습하며 적응하고, 인간과 유사한 방식으로 사고하고 행동할 수 있는 기술은 미래 AI 로봇과 에이전트 시장의 판도를 바꿀 촉매제가 될 수 있다는 분석이다.




