PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 4월 8일

Cursor, warp decode 공개 — Blackwell 기반 MoE 추론을 1.84x 가속하며 정확도도 개선

Cursor는 2026년 4월 6일 warp decode를 공개하며, Blackwell GPU에서 Mixture-of-Experts(MoE) decode 경로의 병렬화 축을 expert 중심에서 output 중심으로 뒤집어 1.84x throughput 향상과 FP32 기준 1.4x 더 높은 정확도를 얻었다고 밝혔다. 기존 expert-centric 경로의 8단계 중 5단계를 제거하고,…

본문 읽기원문 보기

발행일

2026년 4월 8일

업데이트

2026년 4월 8일

주제

AI
모델
트렌드
개발도구
원문 보기

배경 및 맥락

최근 몇 분기 동안 LLM 경쟁의 표면은 모델 크기, 벤치마크, RL 성능에 맞춰져 있었지만, 실제 제품 경험을 좌우하는 것은 여전히 추론 시스템이다. 특히 agentic coding처럼 응답이 길고 단계적 생성이 많은 워크로드에서는 prefill보다 autoregressive decode가 latency와 비용을 크게 좌우한다. Mixture-of-Experts 모델은 학습·대규모 배치에는 효율적이지만, 한 번에 한 토큰씩 생성하는 decode 구간에서는 expert routing과 데이터 재배치 오버헤드가 병목이 되기 쉽다.

Cursor의 warp decode는 바로 이 decode 병목을 겨냥한 커널 레벨 최적화다. 핵심 아이디어는 기존 MoE 추론이 expert를 중심으로 토큰을 모아 계산하던 방식을 버리고, 각 warp가 하나의 output scalar를 책임지도록 병렬화 축을 뒤집는 것이다. 이는 단순 kernel fusion보다 더 근본적인 재구성에 가깝다.


핵심 내용

Cursor 설명에 따르면 기존 expert-centric path는 padding, scattering, combine 등 데이터 레이아웃을 맞추기 위한 bookkeeping 단계가 많았고, decode 시점의 작은 배치에서는 이 오버헤드가 거의 그대로 남았다. Warp decode는 이 중 다섯 단계를 제거하고, moe_gate_up_3d_batched와 moe_down_3d_batched 두 커널만으로 계산을 끝낸다. 각 warp는 하나의 neuron 또는 output dimension을 전담하고, routed expert들의 contribution을 FP32 accumulator에 직접 합산한다.

이 구조 덕분에 shared memory staging, cross-warp synchronization, intermediate buffer가 크게 줄어든다. Cursor는 per-expert output buffer와 activation gather buffer를 제거해 토큰당 32KB 이상 intermediate traffic을 없앴다고 설명한다. 결과적으로 Qwen-3 스타일 모델을 NVIDIA B200에서 돌렸을 때 end-to-end decode throughput이 1.84x 향상됐고, output은 full FP32 reference에 1.4x 더 가깝게 나왔다고 주장했다. 하드웨어 측면에서는 B200의 측정 peak 6.8 TB/s 대비 3.95 TB/s를 달성했다고 제시했다.


경쟁 구도 / 비교

이 발표는 vLLM, TensorRT-LLM, 각종 vendor kernel optimization 경쟁과 같은 흐름에 있지만, 포인트가 조금 다르다. 많은 시스템이 prefill이나 large-batch inference 최적화에 집중하는 반면, Cursor는 small-batch decode에서 expert-centric 구조 자체가 비효율적이라고 보고 병렬화 축을 뒤집었다. 즉 같은 MoE라도 prefill과 decode를 전혀 다른 문제로 취급해야 한다는 관점을 드러낸다.

또한 이 최적화는 단순 속도 개선에 머물지 않는다. intermediate activation quantization을 없애고 BF16 activation과 FP32 accumulation을 유지함으로써 정확도까지 개선했다는 점이 중요하다. 성능을 높이면 보통 정밀도를 일부 희생하는 경우가 많은데, 여기서는 반대로 두 축을 동시에 개선했다고 주장한다는 점에서 시스템 연구의 가치가 크다.


의미

Cursor의 사례는 AI 제품 기업이 결국 model company이면서 systems company가 되어야 한다는 사실을 보여준다. 모델 품질, RL, 데이터뿐 아니라 kernel design, memory bandwidth utilization, hardware scheduling 이해가 제품 업데이트 속도와 운영비를 좌우한다. 에이전트 시대에는 같은 모델이라도 누가 더 빠르고 정확하게 추론하느냐가 사용자 체감 품질을 크게 바꾼다.

실무적으로는 inference 최적화가 infra cost 절감 프로젝트를 넘어 product strategy가 된다. 특히 MoE 기반 모델을 서비스하는 팀은 decode 경로에서 발생하는 padding, scatter, combine, buffer traffic을 별도 지표로 보고, prefill 최적화와 분리된 시스템 설계를 검토할 필요가 있다. 앞으로 frontier 경쟁력은 모델 사이즈만이 아니라 이런 하부 엔지니어링 역량에서 더 자주 갈릴 가능성이 높다.

이어 읽기

관련 읽을거리

전체 보기
2026년 3월 27일Google TurboQuant — LLM KV 캐시 6배 압축, 정확도 손실 제로 달성 (ICLR 2026)Google이 LLM의 KV 캐시를 기존 16비트에서 3비트로 압축해 메모리 사용량을 최소 6배 줄이면서도 정확도 손실이 없는 알고리즘 TurboQuant를 공개했다. ICLR 2026에서 정식 발표 예정이며, H100 GPU에서 4비트 적용 시 32비트 대비 최대 8배 추론 성능 향상이 확인됐다.2026년 6월 27일DeepSpec - speculative decoding becomes an open production optimization stackDeepSeek은 speculative decoding draft model을 훈련하고 평가하기 위한 MIT-licensed DeepSpec repository를 공개했다. README 기준 DeepSpec은 data preparation, draft model implementation, training, evaluation scripts를 포함하며 DSpark, DFlash,…2026년 6월 27일GPT-5.6 Sol preview - frontier model releases become policy-gated infrastructure decisionsOpenAI는 2026년 6월 26일 GPT-5.6 series의 limited preview를 발표하며 Sol, Terra, Luna 3개 tier와 새로운 max reasoning effort, subagent 기반 ultra mode를 공개했다. Sol은 Terminal-Bench 2.1, GeneBench v1, ExploitBench, ExploitGym 같은 장시간…2026년 6월 26일QHexRT - Qualcomm Hexagon NPU inference moves small LLMs fully on-deviceRunAnywhereAI는 Qualcomm Hexagon NPU용 full-stack inference engine인 QHexRT를 공개했고, 첫 catalog entry로 Liquid AI의 LFM 2.5 230M을 지원한다. 발표는 decode graph, prefill graph, lm-head, embeddings까지 inference path의 모든 tensor가 HTP에 머무르며…