PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 3월 27일

Google TurboQuant — LLM KV 캐시 6배 압축, 정확도 손실 제로 달성 (ICLR 2026)

Google이 LLM의 KV 캐시를 기존 16비트에서 3비트로 압축해 메모리 사용량을 최소 6배 줄이면서도 정확도 손실이 없는 알고리즘 TurboQuant를 공개했다. ICLR 2026에서 정식 발표 예정이며, H100 GPU에서 4비트 적용 시 32비트 대비 최대 8배 추론 성능 향상이 확인됐다.

본문 읽기원문 보기

발행일

2026년 3월 27일

업데이트

2026년 3월 27일

주제

트렌드
AI
모델
개발도구
원문 보기

이어 읽기

관련 읽을거리

전체 보기
2026년 4월 8일Cursor, warp decode 공개 — Blackwell 기반 MoE 추론을 1.84x 가속하며 정확도도 개선Cursor는 2026년 4월 6일 warp decode를 공개하며, Blackwell GPU에서 Mixture-of-Experts(MoE) decode 경로의 병렬화 축을 expert 중심에서 output 중심으로 뒤집어 1.84x throughput 향상과 FP32 기준 1.4x 더 높은 정확도를 얻었다고 밝혔다. 기존 expert-centric 경로의 8단계 중 5단계를 제거하고,…2026년 6월 27일DeepSpec - speculative decoding becomes an open production optimization stackDeepSeek은 speculative decoding draft model을 훈련하고 평가하기 위한 MIT-licensed DeepSpec repository를 공개했다. README 기준 DeepSpec은 data preparation, draft model implementation, training, evaluation scripts를 포함하며 DSpark, DFlash,…2026년 6월 27일GPT-5.6 Sol preview - frontier model releases become policy-gated infrastructure decisionsOpenAI는 2026년 6월 26일 GPT-5.6 series의 limited preview를 발표하며 Sol, Terra, Luna 3개 tier와 새로운 max reasoning effort, subagent 기반 ultra mode를 공개했다. Sol은 Terminal-Bench 2.1, GeneBench v1, ExploitBench, ExploitGym 같은 장시간…2026년 6월 26일QHexRT - Qualcomm Hexagon NPU inference moves small LLMs fully on-deviceRunAnywhereAI는 Qualcomm Hexagon NPU용 full-stack inference engine인 QHexRT를 공개했고, 첫 catalog entry로 Liquid AI의 LFM 2.5 230M을 지원한다. 발표는 decode graph, prefill graph, lm-head, embeddings까지 inference path의 모든 tensor가 HTP에 머무르며…