읽을거리2026년 3월 27일Google TurboQuant — LLM KV 캐시 6배 압축, 정확도 손실 제로 달성 (ICLR 2026)Google이 LLM의 KV 캐시를 기존 16비트에서 3비트로 압축해 메모리 사용량을 최소 6배 줄이면서도 정확도 손실이 없는 알고리즘 TurboQuant를 공개했다. ICLR 2026에서 정식 발표 예정이며, H100 GPU에서 4비트 적용 시 32비트 대비 최대 8배 추론 성능 향상이 확인됐다.본문 읽기원문 보기