PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 6월 27일

DeepSpec - speculative decoding becomes an open production optimization stack

DeepSeek은 speculative decoding draft model을 훈련하고 평가하기 위한 MIT-licensed DeepSpec repository를 공개했다. README 기준 DeepSpec은 data preparation, draft model implementation, training, evaluation scripts를 포함하며 DSpark, DFlash,…

본문 읽기원문 보기

발행일

2026년 6월 27일

업데이트

2026년 6월 27일

주제

AI
오픈소스
개발도구
모델
원문 보기

배경 및 맥락

대형 언어모델 inference 비용은 training보다 덜 화려해 보이지만 실제 제품 손익에는 직접적인 영향을 준다. Autoregressive decoding은 token을 순차적으로 생성하기 때문에, 모델이 커질수록 사용자는 latency를 체감하고 사업자는 GPU serving cost를 부담한다. Speculative decoding은 작은 draft model이 여러 token 후보를 먼저 만들고 큰 target model이 이를 검증해 latency를 줄이는 대표적인 inference optimization이다.

최근 cache에는 HF Jobs vLLM server처럼 ephemeral serving plane을 다룬 항목과 Kog Laneformer 2B처럼 latency-first coding model architecture를 다룬 항목이 있었다. DeepSpec은 이 둘과 겹치지 않는 더 낮은 inference optimization 계층이다. 제품 endpoint를 쉽게 띄우는 문제가 아니라, target model 주변에 draft model training/evaluation stack을 붙여 generation path 자체를 빠르게 만드는 문제다.


핵심 내용

DeepSpec repository는 speculative decoding용 draft model을 훈련하고 평가하기 위한 full-stack codebase로 공개됐다. 구성 요소는 data preparation utilities, draft model implementations, training code, evaluation scripts다. Workflow는 data preparation, training, evaluation 세 단계로 나뉘며 각 단계의 output이 다음 단계 input으로 이어진다.

README는 default Qwen/Qwen3-4B setting에서 target cache 준비가 대략 38TB 규모가 될 수 있다고 경고한다. Training script는 visible GPU마다 worker를 띄우며, 기본 config와 scripts는 single node 8 GPUs를 가정한다. Evaluation은 gsm8k, math500, aime25, humaneval, mbpp, livecodebench, mt-bench, alpaca, arena-hard-v2 같은 benchmark를 대상으로 speculative-decoding acceptance를 측정한다. 지원 draft model은 DSpark, DFlash, Eagle3이고, license는 MIT다.


경쟁 구도 / 비교

vLLM, SGLang, TensorRT-LLM 같은 serving stack은 batching, KV cache, scheduler, kernel optimization을 통해 throughput을 개선한다. Speculative decoding은 그 위 또는 옆에서 target model의 forward pass 효율을 높이는 기법이다. 따라서 DeepSpec의 경쟁 포인트는 새로운 foundation model 점수가 아니라, draft model을 실제 workload에 맞게 훈련하고 acceptance를 검증하는 재현성이다.

기존에는 speculative decoding이 논문 또는 framework feature로 소개되는 경우가 많았다. DeepSpec은 data pipeline과 evaluation dataset을 포함해 운영팀이 자신들의 target model과 workload에 맞는 draft model을 만들 수 있게 한다. 다만 38TB target cache와 8-GPU assumption은 이 최적화가 무료가 아니라는 점도 보여준다. Serving cost를 줄이기 위해 training/storage cost를 먼저 지불하는 구조다.


의미

산업적으로 LLM 경쟁은 더 큰 모델을 만드는 단계에서, 같은 모델을 더 빠르고 싸게 제공하는 inference supply chain 경쟁으로 확장되고 있다. 사용자에게는 응답 속도, 기업에는 GPU utilization과 margin이 핵심 지표가 되기 때문에 speculative decoding 같은 기술은 product UX와 cloud cost를 동시에 건드린다.

실무적으로는 DeepSpec을 바로 production에 넣기보다, 내부 traffic replay로 acceptance length, rejection pattern, latency distribution, quality parity를 측정해야 한다. 특히 code generation, math reasoning, chat workload는 token distribution이 다르므로 하나의 draft model로 모든 use case를 최적화하기 어렵다. 플랫폼 팀은 draft model training cost, cache storage, benchmark contamination, release regression test를 inference roadmap에 포함해야 한다.

이어 읽기

관련 읽을거리

전체 보기
2026년 6월 24일Kog Laneformer 2B - latency-first coding models move architecture into the serving layerKog는 Hugging Face에 Laneformer 2B의 weights와 model code를 공개했다. 이 모델은 2.3B parameter instruction-tuned coding model로, Delayed Tensor Parallelism과 lane-structured Transformer를 통해 batch-size-one decoding latency를 모델 아키텍처…2026년 6월 24일NVIDIA NeMo AutoModel - MoE fine-tuning gets a drop-in performance path for TransformersNVIDIA와 Hugging Face는 Transformers v5 위에서 NeMo AutoModel을 사용해 MoE fine-tuning을 가속하는 방법을 공개했다. NeMo AutoModel은 Expert Parallelism, DeepEP fused all-to-all dispatch, TransformerEngine kernels를 추가해 같은 from_pretrained() 계열…2026년 6월 8일Introducing Mellum2 — software engineering용 small expert model 경쟁이 giant general model에서 low-latency control layer로 이동JetBrains는 2026년 6월 1일 Mellum2를 공개했다. 이 모델은 text·code 특화 12B Mixture-of-Experts 구조를 사용하며 token당 2.5B만 활성화해, routing·RAG·summarization·sub-agent 같은 latency-sensitive workload에서 2배 이상 빠른 추론을 목표로 한다.2026년 6월 26일QHexRT - Qualcomm Hexagon NPU inference moves small LLMs fully on-deviceRunAnywhereAI는 Qualcomm Hexagon NPU용 full-stack inference engine인 QHexRT를 공개했고, 첫 catalog entry로 Liquid AI의 LFM 2.5 230M을 지원한다. 발표는 decode graph, prefill graph, lm-head, embeddings까지 inference path의 모든 tensor가 HTP에 머무르며…