2026년 3월 28일수정 2026년 3월 28일원문

Google TurboQuant: LLM KV-Cache 6배 압축 달성, 메모리 반도체 시장 직격

Google이 ICLR 2026에서 발표한 TurboQuant 양자화 기술은 LLM의 KV-Cache를 채널당 3.5비트로 압축하여 메모리 사용량을 최대 6배 감소시키면서도 모델 품질을 유지("absolute quality neutrality")하는 데 성공했다. 이 결과로 Micron 등 AI 메모리 공급업체 주가가 즉각 하락했다. 🔍 왜 주목해야 하나 LLM 추론 비용의 핵심 병목은…

더 읽기

같이 읽어볼 만한 글

2026년 5월 11일

EMO — MoE가 실제 배포 가능한 모듈형 모델로 진화할 수 있음을 보여준 AllenAI의 오픈 릴리즈

AllenAI는 2026년 5월 8일 EMO를 공개했다. 이 모델은 1B active / 14B total parameter, 128 experts, 1T tokens 규모의 MoE를 문서 단위 shared expert pool 제약으로 학습해, 전체 expert의 12.5%만 사용해도 near full-model 성능을 유지하도록 설계됐다. 🔍 왜 주목해야 하나 지금까지 MoE는…

2026년 5월 5일

Accelerating Gemma 4: faster inference with multi-token prediction drafters — 오픈모델 경쟁의 기준이 benchmark보다 latency economics로 이동

Google은 2026년 5월 5일 Gemma 4용 Multi-Token Prediction (MTP) drafters를 공개했다. 이 speculative decoding 구조는 Gemma 4 target model과 경량 drafter를 결합해 output 품질 저하 없이 최대 3배 속도 향상을 제공하며, Gemma 4는 출시 수주 만에 6천만 다운로드를 넘겼다고 밝혔다. 🔍 왜…

2026년 4월 25일

Mistral 3 — 오픈 모델 경쟁이 단일 플래그십에서 full-stack open portfolio 전략으로 이동

Mistral AI는 최근 Mistral 3를 공개하며 675B total / 41B active의 Mistral Large 3와 3B·8B·14B 규모의 Ministral 3 시리즈를 함께 내놨다. 전 모델을 Apache 2.0으로 공개하고, Large 3는 8×A100 또는 8×H100 단일 노드 배포 경로, 소형 모델은 edge·robotics 환경까지 겨냥하며 배포 범위를 넓혔다.…

2026년 4월 17일

Mistral Small 4 공개 — 오픈 모델 전략이 단일 체크포인트에서 다기능 통합형 reasoning stack으로 이동

Mistral은 2026년 4월 16일 Mistral Small 4를 발표했다. 이 모델은 119B total parameters, 6B active parameters의 128-expert MoE 구조와 256k context window를 갖고, reasoning·multimodal·agentic coding을 하나로 묶은 Apache 2.0 오픈 모델로 제공된다. 🔍 왜 주목해야…