구글이 AI 모델의 성능을 향상시키기 위한 '터보퀀트(TurboQuant)'라는 기술을 발표했다. 터보퀀트는 AI 모델의 처리 속도를 높이고 메모리 요구량을 줄일 수 있는 새로운 압축 기술로, 기존 알고리즘에 비해 더 적은 오류로 데이터를 압축할 수 있다. 터보퀀트는 AI 모델이 처리해야 할 데이터 양을 줄이는 방식을 택하고 있으며, 데이터의 수학적 특성을 변경하여 효율적인 데이터를 압축한다.
이 기술은 AI 모델이 데이터를 벡터 형태로 저장하며, 벡터의 방향성을 활용해 데이터를 최적화한다. '랜덤 프리컨디셔닝(Preconditioning)'이라는 방법을 사용해 AI 모델의 벡터를 회전시켜 압축하기 쉽게 만들고, 이를 '퀀타이저(Quantizer)'라는 알고리즘으로 압축한다. 회전된 벡터는 압축 과정에서 발생할 수 있는 데이터 오류로부터 보호되지만, 소수의 오류가 발생할 수 있다. 이러한 오류는 'QJL'이라는 알고리즘을 사용해 수정하는데, 이는 '존슨-린덴스트라우스 변환(Johnson-Lindenstrauss Transform)'이라는 기술을 사용해 복잡한 고차원 데이터를 축소하면서 데이터 포인트 간의 본질적인 거리와 관계를 보존한다.
구글은 터보퀀트를 여러 개의 오픈소스 대형 언어 모델(LLMs)에 적용해 효율성을 테스트했으며, 이 모델들이 평소 요구하는 메모리의 1/6만을 사용해 평가를 완료할 수 있었다고 밝혔다. 이를 통해 롱컨텍스트 작업에서도 향상된 성능을 보였다.

