구글(GOOGL)의 연구 조직 두 곳이 공동으로 개발한 새로운 대형 언어모델 ‘볼트제마(VaultGemma)’가 AI 분야에서 프라이버시 보호 성능의 새로운 기준을 제시하고 있다. 해당 모델은 특수 수학적 알고리즘인 ‘차등 프라이버시(Differential Privacy)’를 기반으로 민감한 데이터가 노출되지 않도록 설계됐다.
볼트제마는 구글의 ‘제마(Gemma)’ 아키텍처를 바탕으로 10억 개 매개변수를 갖춘 디코더 전용 트랜스포머 변형 모델이다. 민감한 정보를 기억하거나 유출하지 않도록 학습 단계에서부터 차등 프라이버시 토대 하에 개발됐으며, 구글 리서치와 구글 딥마인드의 협업으로 탄생했다.
차등 프라이버시는 데이터 집합에 의도적으로 ‘노이즈’를 추가해 개별 정보 식별 가능성을 제거하는 기술로, 기존에는 재무와 헬스케어 등 규제 산업에서 제한적으로 활용돼 왔다. 그러나 LLM에 적용하는 것은 성능 하락이라는 한계에 가로막혀 있었다. 이에 구글은 새로운 ‘스케일링 법칙’을 고안해 모델의 성능, 계산비용, 개인정보 보호 세 요소 사이의 절충을 극복하는 데 성공했다.
연구진은 수백만 개의 데이터를 포함한 대규모 미니배치와 고정된 토큰 수(1024)를 설정해 LLM이 겪는 학습 불안정을 극복했다. 이를 통해 볼트제마는 기존 비공개 LLM에 견줄 만큼 탁월한 추론 및 문답 성능을 구현하면서도, 학습 데이터 유출 우려가 없는 강력한 프라이버시 안전장치를 갖추게 됐다.
구글은 볼트제마의 모델 가중치와 코드베이스를 허깅페이스와 캐글을 통해 오픈소스로 공개했다. 이는 제미니 프로 같은 자사 독점 LLM의 접근을 제한했던 과거 행보와 상반된 전략으로, 민감한 데이터를 다루는 산업군과의 협업을 염두에 둔 것으로 해석된다. 실제로 구글은 지금 주요 헬스케어 기관들과의 협업 가능성을 검토 중이며, 환자 데이터 보호와 같은 고도 민감 의사결정 영역에서 실전 도입을 추진하고 있다.
전문가들은 이번 모델이 LLM에서의 윤리성과 투명성을 향상시키는 계기가 될 수 있다고 평가한다. 볼트제마는 학습 데이터 비공개를 전제로 구성되어 있어 잘못된 정보 확산과 편향성 증폭 가능성을 차단할 수 있는 구조를 갖췄다는 점에서, 향후 책임 있는 AI 개발을 선도할 모델로 부상할 전망이다.
구글의 차등 프라이버시 기반 스케일링 전략은 매개변수가 수조 개에 이르는 차세대 모델에도 적용 가능하다는 분석이 나오고 있다. 데이터 보안이 핵심 이슈로 떠오른 지금, 볼트제마는 기업용 사설 AI 모델 구축의 새로운 기준점이 될 가능성을 보여주고 있다.
<저작권자 ⓒ TokenPost, 무단전재 및 재배포 금지>