Google TurboQuant: LLM KV 캐시 6배 압축, 정확도 손실 제로 달성

Google 리서치팀이 LLM의 KV(Key-Value) 캐시를 6배 압축하면서도 정확도 손실이 전혀 없는 새로운 양자화 알고리즘 TurboQuant를 공개했다. NVIDIA H100 GPU 기준 어텐션 연산 속도를 최대 8배 향상시키며, 재학습이나 파인튜닝 없이 즉시 적용 가능하다. 🔍 왜 주목해야 하나 LLM 서빙의 핵심 병목은 GPU 메모리 대역폭인데, TurboQuant는 KV…

모델

트렌드

같이 읽어볼 만한 글

전체 글 보기

2026년 5월 6일

GPT-5.5 Instant — 범용 AI 제품 경쟁이 frontier launch보다 기본 모델 운영 품질로 이동

OpenAI는 2026년 5월 5일 ChatGPT의 기본 모델을 GPT-5.5 Instant로 교체한다고 발표했다. 새 모델은 GPT-5.3 Instant 대비 고위험 프롬프트에서 hallucinated claim을 52.5% 줄였고, 사용자가 오류를 지적했던 까다로운 대화에서는 inaccurate claim을 37.3% 줄였으며, chat-latest로도 제공된다. 🔍 왜 주목해야 하나…

2026년 5월 5일

Accelerating Gemma 4: faster inference with multi-token prediction drafters — 오픈모델 경쟁의 기준이 benchmark보다 latency economics로 이동

Google은 2026년 5월 5일 Gemma 4용 Multi-Token Prediction (MTP) drafters를 공개했다. 이 speculative decoding 구조는 Gemma 4 target model과 경량 drafter를 결합해 output 품질 저하 없이 최대 3배 속도 향상을 제공하며, Gemma 4는 출시 수주 만에 6천만 다운로드를 넘겼다고 밝혔다. 🔍 왜…

2026년 4월 25일

DeepSeek V4 Preview — 오픈 모델 경쟁이 성능 추격에서 가격·맥락 길이·지정학적 자립성의 복합전으로 이동

DeepSeek는 2026년 4월 24일 V4 Preview를 공개했다. V4 Pro는 1.6T total / 49B active parameters, V4 Flash는 284B total / 13B active parameters를 갖고 두 모델 모두 1M token context를 지원하며, Flash는 입력 토큰 100만 개당 0.14달러로 제시됐다. 🔍 왜 주목해야 하나 이 발표의…

2026년 4월 25일

Mistral 3 — 오픈 모델 경쟁이 단일 플래그십에서 full-stack open portfolio 전략으로 이동

Mistral AI는 최근 Mistral 3를 공개하며 675B total / 41B active의 Mistral Large 3와 3B·8B·14B 규모의 Ministral 3 시리즈를 함께 내놨다. 전 모델을 Apache 2.0으로 공개하고, Large 3는 8×A100 또는 8×H100 단일 노드 배포 경로, 소형 모델은 edge·robotics 환경까지 겨냥하며 배포 범위를 넓혔다.…