구글 딥마인드가 최근 공개한 '제미니 디퓨전(Gemini Diffusion)'은 기존 GPT 계열의 오토리그레시브 방식과는 구조적으로 다른 차세대 언어 생성 기법으로, 대규모 언어 모델(LLM)의 속도와 일관성을 크게 향상시킬 수 있는 변화로 주목받고 있다. 이미지를 생성할 때 자주 사용되는 디퓨전 기법을 자연어 처리에 적용한 이 방식은 임의의 잡음을 점차 정제해 문장을 생성하는 방식으로 작동하며, 초기부터 단계적으로 단어를 생성해가는 순차형 방식에 비해 속도와 정교함에서 강점을 보인다는 평가가 이어지고 있다.
제미니 디퓨전은 당초 비공개 형태의 실험적 데모로 공개되었으며, 일반 유저들은 대기자 리스트에 등록해 시험적 접속 기회를 얻을 수 있다. 기존 제미니 2.5 플래시 모델의 평균 생성 속도가 초당 272.4개 토큰이었던 데 비해, 제미니 디퓨전은 최대 초당 2,000개의 토큰을 생성하는 등 최대 7배 이상 빠른 속도를 기록했다. 특히 개발자용 코드 생성, 장문의 에세이 작성 등 고성능이 요구되는 작업에서 높은 처리량과 더불어 오타 및 논리 오류에 대한 수정 능력도 유의미한 수준으로 입증됐다.
디퓨전 기반 언어 모델(dLLM)은 학습 과정에서 문장을 반복적으로 오염시킨 후 복원하는 과정을 통해 훈련된다. 수백~수천 단계에 걸쳐 문장을 잡음으로 덮은 뒤, 반대로 이를 복원하는 ‘역확산’ 단계에서 문장에서 유효한 구성 요소를 점진적으로 찾아낸다. 이를 통해 모델은 다양한 문장의 가능성 분포를 학습하고, 새로운 요청이 들어올 땐 초기 잡음을 기반으로 구조화된 문장을 생성하게 된다. 이 때 사용자 프롬프트나 조건이 각 단계마다 삽입돼 문장의 방향성을 제어한다.
제미니 디퓨전의 주된 강점은 크게 네 가지로 요약된다. 첫째는 응답 속도의 획기적 향상이다. 병렬 처리가 가능해 기존 방식보다 훨씬 빠른 속도로 결과물을 생성할 수 있으며, 작업 난이도에 따라 동적으로 연산 자원을 조절하는 '적응형 연산'도 가능하다. 둘째는 '비인과적 추론(non-causal reasoning)', 즉 하나의 문단 안에서 앞뒤 문맥 전체를 고려해 보다 정합성 있는 문장을 만들어낼 수 있다는 점이다. 셋째는 생성 과정에서 발생한 오류를 반복적으로 보완하는 '자기 수정' 능력이다. 마지막으로는 글로벌 구조 편집이 가능해 전체 토큰 수정을 요하는 고급 작업에서도 유리하다는 평가다.
물론 단점도 존재한다. 실시간 응답을 선호하는 환경에서는 최초 토큰이 생성되기까지 시간이 다소 지연될 수 있다. 또한 클라우드 기반 서빙 비용이 오토리그레시브 방식에 비해 상대적으로 높다는 단점도 존재한다. 하지만 이러한 일부 한계를 상쇄하고도 남을 정도로 속도와 일관성, 정확도 면에서 디퓨전 방식은 높은 활용 가능성을 제시한다.
벤치마크 결과를 보면, 제미니 디퓨전은 코드 생성과 수학 문제 해결 능력에서 기존 제미니 2.0 플래시 라이트 대비 강력한 성능을 보였고, 반면 과학 지식과 다국어 처리에서는 소폭 밀리는 결과를 보였다. 하지만 구글 딥마인드 측은 “아직 모델 크기나 테스트 범위가 제한적인 만큼 향후 확장성 측면에서 충분히 성능 격차가 좁혀질 수 있다”고 자신하고 있다.
특히 실험적 환경에서 실시간 HTML 앱과 비디오 채팅 인터페이스를 생성한 데모에서는 초당 수백~천여 개 토큰을 생성하는 속도를 확인했으며, 기능 구현에서도 안정적인 결과를 도출해 실사용 제품에 근접한 ‘최소 구현 제품(MVP)’ 수준의 완성도를 시사했다. 또한 텍스트 즉석 수정 기능(Instant Edit)은 맞춤법 교정, SEO 키워드 삽입, 코드 리팩터링 등 다양한 작업을 실시간으로 처리할 수 있어 기업용 어시스턴트로의 발전 가능성도 엿보인다.
디퓨전 방식의 언어 모델은 이제 막 상업적 검증 단계에 진입했지만, 높은 생성 속도와 비선형 추론 능력을 바탕으로 기존 아키텍처와 확연히 다른 가능성을 제시하고 있다. 제미니 디퓨전을 비롯해 Inception Labs의 머큐리(Mercury), Hugging Face의 LLaDa 등 다양한 DLM이 급속히 등장하고 있는 현 시점에서, 언어 모델의 미래가 다시 한 번 재편될 조짐이 뚜렷해지고 있다.