Google TurboQuant — LLM KV 캐시 메모리 6배 압축, H100에서 8배 속도 향상

Google Research가 LLM의 KV 캐시 메모리를 6배 압축하면서 정확도 손실이 없는 알고리즘 TurboQuant를 공개했다. 16비트에서 3비트로의 훈련 없는(training-free) 압축으로 NVIDIA H100에서 최대 8배의 어텐션 연산 속도 향상을 달성하며, ICLR 2026 발표 예정이다.

배경 및 맥락

LLM 추론에서 KV(Key-Value) 캐시는 어텐션 연산의 과거 결과를 저장하는 메모리 구조로, 긴 컨텍스트를 처리할수록 기하급수적으로 메모리를 소비한다. 예를 들어 128K 컨텍스트를 처리하는 70B 파라미터 모델은 KV 캐시에만 수십 GB의 GPU 메모리를 점유한다. 이를 해결하기 위해 기존에는 GPTQ, AWQ 등 가중치 양자화나 KV 캐시를 CPU로 오프로드하는 방식이 쓰였으나, 모두 정확도 저하 또는 추가 지연의 트레이드오프가 있었다.

핵심 내용

TurboQuant는 두 가지 상호 보완적 기술의 조합이다.

PolarQuant: 키(Key) 벡터를 구면(sphere) 위의 점으로 표현한 뒤 각도 정보만 저장하는 방식으로 3비트 수준으로 압축한다. 이미 AISTATS 2026에서 별도 논문으로 발표됐다.
QJL(Quantized Johnson-Lindenstrauss): 밸류(Value) 벡터에 존슨-린덴스트라우스 랜덤 프로젝션을 적용해 2비트로 압축하면서 어텐션 스코어 계산 시 수학적으로 오차 한계를 보장한다.

압축 결과:

KV 캐시: 16비트 → 평균 약 3비트 (Keys 3비트, Values 2비트)
메모리 절감: 6배
NVIDIA H100 GPU 어텐션 연산 속도: 최대 8배 향상
정확도 손실: LM-Eval 기준 0% (다양한 벤치마크에서 원본과 동등)
훈련 필요 여부: 없음 (training-free)

경쟁 구도 / 비교

기법	압축 목표	훈련 필요	정확도 손실	속도 향상
GPTQ	가중치	필요	소폭 있음	중간
AWQ	가중치	필요	소폭 있음	중간
SnapKV	KV 캐시 축약	불필요	있음	낮음
TurboQuant	KV 캐시 양자화	불필요	없음	최대 8배

llama.cpp에서는 이미 커뮤니티 개발자가 PyTorch 및 Triton 기반 구현체를 공개했고, vLLM 통합 PR도 진행 중이다. Google의 공식 구현은 Q2 2026 중 출시 예정이다.

의미

TurboQuant가 현실화되면 동일한 GPU 클러스터에서 처리 가능한 동시 세션 수가 6배 이상 늘어난다. 이는 LLM API 서비스의 단위 비용을 대폭 낮추고, 온프레미스나 엣지 환경에서의 롱컨텍스트 처리를 가능하게 한다. 특히 프로덕션에서 100K+ 토큰 컨텍스트를 다루는 기업들에게는 인프라 투자 없이 즉각적인 비용·성능 개선이 가능한 기회다. ICLR 2026 공식 발표 이후 주요 추론 프레임워크 채택이 빠르게 이루어질 것으로 예상된다.

배경 및 맥락

핵심 내용

TurboQuant는 두 가지 상호 보완적 기술의 조합이다.

PolarQuant: 키(Key) 벡터를 구면(sphere) 위의 점으로 표현한 뒤 각도 정보만 저장하는 방식으로 3비트 수준으로 압축한다. 이미 AISTATS 2026에서 별도 논문으로 발표됐다.
QJL(Quantized Johnson-Lindenstrauss): 밸류(Value) 벡터에 존슨-린덴스트라우스 랜덤 프로젝션을 적용해 2비트로 압축하면서 어텐션 스코어 계산 시 수학적으로 오차 한계를 보장한다.

압축 결과:

KV 캐시: 16비트 → 평균 약 3비트 (Keys 3비트, Values 2비트)
메모리 절감: 6배
NVIDIA H100 GPU 어텐션 연산 속도: 최대 8배 향상
정확도 손실: LM-Eval 기준 0% (다양한 벤치마크에서 원본과 동등)
훈련 필요 여부: 없음 (training-free)

경쟁 구도 / 비교

기법	압축 목표	훈련 필요	정확도 손실	속도 향상
GPTQ	가중치	필요	소폭 있음	중간
AWQ	가중치	필요	소폭 있음	중간
SnapKV	KV 캐시 축약	불필요	있음	낮음
TurboQuant	KV 캐시 양자화	불필요	없음	최대 8배

Google TurboQuant — LLM KV 캐시 메모리 6배 압축, H100에서 8배 속도 향상

배경 및 맥락

핵심 내용

경쟁 구도 / 비교

의미

관련 읽을거리

Google TurboQuant — LLM KV 캐시 메모리 6배 압축, H100에서 8배 속도 향상

배경 및 맥락

핵심 내용

경쟁 구도 / 비교

의미

관련 읽을거리