구글 LLC가 텍스트 ‘디퓨전’ 방식의 신규 대형언어모델(LLM) ‘디퓨전젬마(DiffusionGemma)’를 공개했다. 기존 LLM보다 최대 4배 빠른 텍스트 생성 속도를 구현하면서도 메모리 사용량을 낮춰, 고사양 소비자용 그래픽카드에서도 구동이 가능하다는 점이 핵심이다.
구글은 12일 공개한 자료에서 디퓨전젬마가 전통적인 LLM과 달리 문장을 한 토큰씩 순차 생성하지 않고, 한 번에 256개 토큰을 병렬 생성할 수 있다고 설명했다. 이 같은 병렬 처리 구조가 속도 개선의 배경으로 꼽힌다. 회사 측에 따르면 엔비디아의 서버용 H100 GPU 1개에서 초당 1,000개 이상 토큰을 생성할 수 있으며, 소비자용 지포스 RTX 5090에서도 초당 700개 이상 토큰을 처리한다.
디퓨전젬마의 구조는 이미지 생성 AI에서 널리 쓰이는 ‘디퓨전’ 기법을 텍스트에 적용한 형태다. 이미지 모델이 잡음이 섞인 흐릿한 사진에서 노이즈를 점진적으로 제거해 최종 이미지를 완성하듯, 이 모델은 처음에 무작위 단어로 이뤄진 임시 응답을 만든 뒤 이를 단계적으로 실제 답변에 맞는 단어로 교체한다. 수정과 검토를 반복해 최종 문장을 완성하는 방식이다.
이 접근법은 기존 LLM과 차별화된다. 일반적인 대형언어모델은 앞서 나온 단어를 바탕으로 다음 토큰을 예측하는 방식이지만, 디퓨전젬마는 앞뒤 문맥을 함께 검토하는 새 ‘어텐션’ 모듈을 적용했다. 구글은 이를 위해 지난 4월 공개한 ‘젬마 4 26B A4B’를 기반으로 기존 어텐션 메커니즘을 교체했다고 밝혔다.
메모리 효율도 강조했다. 디퓨전젬마는 총 260억 개 매개변수를 갖고 있지만, 실제 추론 과정에서는 38억 개만 활성화하는 ‘전문가 혼합’ 구조를 채택했다. 여기에 경량 데이터 포맷인 ‘NVFP4’를 적용해 램(RAM) 점유를 더 낮췄다. 이 덕분에 일반적으로 LLM 구동이 버거운 소비자용 GPU에서도 실행이 가능해졌다는 설명이다.
구글 연구진 브렌던 오도너휴(Brendan O'Donoghue)와 세바스티안 플레너하그(Sebastian Flennerhag)는 이날 블로그를 통해 “AI 연구 커뮤니티는 수년간 디퓨전 기반 텍스트 생성을 연구해왔지만, 이를 대형 모델에 적용하는 일은 쉽지 않았다”며 “디퓨전젬마는 모델이 하드웨어를 활용하는 방식을 바꾸면서 이 문제를 해결했다”고 밝혔다.
이번 공개는 생성형 AI 경쟁이 모델 성능뿐 아니라 ‘속도’와 ‘비용 효율’로 옮겨가고 있음을 보여준다. 특히 고가 서버 인프라 의존도를 낮추고 소비자용 하드웨어에서도 높은 성능을 낼 수 있다면, 기업과 개발자 입장에서는 실제 도입 장벽이 크게 낮아질 수 있다.
디퓨전젬마는 현재 허깅페이스를 통해 오픈소스 라이선스로 배포되고 있다. 업계에서는 이번 모델이 향후 경량 고속 LLM 개발 흐름에 적지 않은 영향을 줄 가능성이 있다고 보고 있다.


