읽을거리2026년 3월 26일Google TurboQuant: LLM KV 캐시 6배 압축, 정확도 손실 제로 달성Google 리서치팀이 LLM의 KV(Key-Value) 캐시를 6배 압축하면서도 정확도 손실이 전혀 없는 새로운 양자화 알고리즘 TurboQuant를 공개했다. NVIDIA H100 GPU 기준 어텐션 연산 속도를 최대 8배 향상시키며, 재학습이나 파인튜닝 없이 즉시 적용 가능하다.본문 읽기원문 보기