Google TurboQuant — LLM KV 캐시 3.5비트 압쳙으로 메모리 6배 절감, 오픈소스 공개

배경 및 맥락

LLM의 KV-캐시(Key-Value Cache)는 Transformer 모델이 어텐션 연산 시 이전 토큰들의 Key와 Value 매트릭스를 저장해 재연산을 피하는 메커니즘이다. 컨텍스트 길이가 늘어날수록 KV-캐시의 VRAM 점유량이 선형적으로 증가하기 때문에, 128K~1M 토큰 컨텍스트를 지원하는 내현 모델 서비스에서는 GPU 메모리가 단일 병목이 되는 경우가 많다.

기존 양자화 접근법(INT8, FP8 등)은 가중치(weight) 압쳙에 접합하여 KV-캐시를 모델로부터 독립적으로 올바르게 압쳙하는 것에는 한계이죠. Google의 TurboQuant는 KV-캐시에 특화된 새로운 양자화 스키마를 적용함으로써 이 한계를 돌파했다.

핵심 내용

압쳙률: 채널당 3.5비트 — FP16(16비트) 대비 약 4.6배, INT8(8비트) 대비 약 2.3배 원시 압쳙률
메모리 절감: FP16 베이스라인 대비 거의 6배 메모리 절감(nearly 6× memory reduction)
추론 속도: VRAM 여유 증가로 배치(batch) 크기를 대폭 확대할 수 있어 throughput 향상
정확도 손실: 밤마크 Perplexity 기준 무시 가능한 수준으로 아키텍쳐 품질 유지
오픈소스 공개: GitHub에 코드 공개, Llama 3.1 70B/405B, Mistral 7B 등에서 실험 결과 확인됨

경쟁 구도 / 비교

접근법	KV 압쳙률	메모리 절감
FP16 (베이스라인)	16비트	1x
INT8	8비트	~2x
FP8	8비트	~2x
TurboQuant	3.5비트	~6x

Meta의 KVSharer, Microsoft의 KVQuant 등 유사한 접근법이 존재하지만, 3.5비트 타겟과 6배 메모리 절감의 조합은 현재까지 공개된 기법 중 최상위 성능이다.

의미

TurboQuant는 단순 학술 논문에 그치지 않고 오픈소스로 공개되어 실휴적 파급력이 제일 크다. 동일 VRAM에서 6배 긴 컨텍스트를 주입할 수 있다는 것은, 128K 컨텍스트 모델이 시뮬레이션 없이 실질적인 1M 컨텍스트 처리가 가능해진다는 의미다. 추론 API 코스트 절감도 예상된다에 Google Cloud 및 Vertex AI에서의 상용 연동은 시간문제일 뜻이다.

배경 및 맥락

핵심 내용

압쳙률: 채널당 3.5비트 — FP16(16비트) 대비 약 4.6배, INT8(8비트) 대비 약 2.3배 원시 압쳙률
메모리 절감: FP16 베이스라인 대비 거의 6배 메모리 절감(nearly 6× memory reduction)
추론 속도: VRAM 여유 증가로 배치(batch) 크기를 대폭 확대할 수 있어 throughput 향상
정확도 손실: 밤마크 Perplexity 기준 무시 가능한 수준으로 아키텍쳐 품질 유지
오픈소스 공개: GitHub에 코드 공개, Llama 3.1 70B/405B, Mistral 7B 등에서 실험 결과 확인됨

경쟁 구도 / 비교

접근법	KV 압쳙률	메모리 절감
FP16 (베이스라인)	16비트	1x
INT8	8비트	~2x
FP8	8비트	~2x
TurboQuant	3.5비트	~6x

Meta의 KVSharer, Microsoft의 KVQuant 등 유사한 접근법이 존재하지만, 3.5비트 타겟과 6배 메모리 절감의 조합은 현재까지 공개된 기법 중 최상위 성능이다.

Google TurboQuant — LLM KV 캐시 3.5비트 압쳙으로 메모리 6배 절감, 오픈소스 공개

배경 및 맥락

핵심 내용

경쟁 구도 / 비교

의미

관련 읽을거리

Google TurboQuant — LLM KV 캐시 3.5비트 압쳙으로 메모리 6배 절감, 오픈소스 공개

배경 및 맥락

핵심 내용

경쟁 구도 / 비교

의미

관련 읽을거리