PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 3월 31일

Google TurboQuant — LLM KV 캐시 3.5비트 압쳙으로 메모리 6배 절감, 오픈소스 공개

Google이 LLM의 KV-캐시를 채널당 3.5비트로 압쳙하는 오픈소스 양자화 기법 TurboQuant를 공개했다. 메모리 사용량을 최대 6배 줄이고 추론 속도를 대폭 향상시킨다.

본문 읽기원문 보기

발행일

2026년 3월 31일

업데이트

2026년 3월 31일

주제

AI
모델
오픈소스
트렌드
API
원문 보기

배경 및 맥락

LLM의 KV-캐시(Key-Value Cache)는 Transformer 모델이 어텐션 연산 시 이전 토큰들의 Key와 Value 매트릭스를 저장해 재연산을 피하는 메커니즘이다. 컨텍스트 길이가 늘어날수록 KV-캐시의 VRAM 점유량이 선형적으로 증가하기 때문에, 128K~1M 토큰 컨텍스트를 지원하는 내현 모델 서비스에서는 GPU 메모리가 단일 병목이 되는 경우가 많다.

기존 양자화 접근법(INT8, FP8 등)은 가중치(weight) 압쳙에 접합하여 KV-캐시를 모델로부터 독립적으로 올바르게 압쳙하는 것에는 한계이죠. Google의 TurboQuant는 KV-캐시에 특화된 새로운 양자화 스키마를 적용함으로써 이 한계를 돌파했다.


핵심 내용

  • 압쳙률: 채널당 3.5비트 — FP16(16비트) 대비 약 4.6배, INT8(8비트) 대비 약 2.3배 원시 압쳙률
  • 메모리 절감: FP16 베이스라인 대비 거의 6배 메모리 절감(nearly 6× memory reduction)
  • 추론 속도: VRAM 여유 증가로 배치(batch) 크기를 대폭 확대할 수 있어 throughput 향상
  • 정확도 손실: 밤마크 Perplexity 기준 무시 가능한 수준으로 아키텍쳐 품질 유지
  • 오픈소스 공개: GitHub에 코드 공개, Llama 3.1 70B/405B, Mistral 7B 등에서 실험 결과 확인됨

경쟁 구도 / 비교

접근법KV 압쳙률메모리 절감
FP16 (베이스라인)16비트1x
INT88비트~2x
FP88비트~2x
TurboQuant3.5비트~6x

Meta의 KVSharer, Microsoft의 KVQuant 등 유사한 접근법이 존재하지만, 3.5비트 타겟과 6배 메모리 절감의 조합은 현재까지 공개된 기법 중 최상위 성능이다.


의미

TurboQuant는 단순 학술 논문에 그치지 않고 오픈소스로 공개되어 실휴적 파급력이 제일 크다. 동일 VRAM에서 6배 긴 컨텍스트를 주입할 수 있다는 것은, 128K 컨텍스트 모델이 시뮬레이션 없이 실질적인 1M 컨텍스트 처리가 가능해진다는 의미다. 추론 API 코스트 절감도 예상된다에 Google Cloud 및 Vertex AI에서의 상용 연동은 시간문제일 뜻이다.

이어 읽기

관련 읽을거리

전체 보기
2026년 4월 5일Google Gemma 4 공개 — Apache 2.0·256K 컨텍스트·멀티모달, 오픈 에이전틱 모델의 새 기준Google이 4월 2~3일 Gemma 4를 Apache 2.0 라이선스로 공개했다. Effective 2B·4B·26B MoE·31B Dense 네 가지 크기로 제공되며, 256K 토큰 컨텍스트, 비전·오디오 네이티브 멀티모달, 140개 이상 언어를 지원한다.2026년 4월 3일Arcee Trinity-Large-Thinking 출시 — 미국계 오픈 에이전트 모델이 가격 대비 frontier 경쟁력 제시Arcee AI가 2026년 4월 1일 Trinity-Large-Thinking을 공개했다. Apache 2.0 오픈웨이트 reasoning 모델로, long-horizon agent와 multi-turn tool calling에 초점을 맞췄고 PinchBench에서 Opus 4.6 바로 아래 2위를 기록했다고 밝혔다.2026년 4월 3일Gemma 4 공개 — Apache 2.0 오픈 모델을 agentic workflow 중심으로 재정의Google DeepMind가 2026년 4월 2일 Gemma 4를 공개했다. E2B, E4B, 26B MoE, 31B Dense 네 가지 크기로 출시됐고, Apache 2.0 라이선스 아래 reasoning, function calling, JSON output, vision/audio 입력까지 지원한다.2026년 4월 1일NVIDIA Nemotron 3 Super — 120B MoE 오픈소스 에이전트 모델, SWE-Bench 60.5% 달성NVIDIA가 에이전트 워크로드 특화 오픈소스 모델 Nemotron 3 Super를 공개했다. Mamba-Transformer 하이브리드 MoE 아키텍처로 원래 1,200억 파라미터에서 활성 파라미터 120억만 사용, SWE-Bench Verified 60.47% 및 PinchBench 85.6%로 동급 오픈소스 최고 성능을 기록했다.