Feature Article
Cursor, warp decode 공개 — Blackwell 기반 MoE 추론을 1.84x 가속하며 정확도도 개선
배경 및 맥락
최근 몇 분기 동안 LLM 경쟁의 표면은 모델 크기, 벤치마크, RL 성능에 맞춰져 있었지만, 실제 제품 경험을 좌우하는 것은 여전히 추론 시스템이다. 특히 agentic coding처럼 응답이 길고 단계적 생성이 많은 워크로드에서는 prefill보다 autoregressive decode가 latency와 비용을 크게 좌우한다. Mixture-of-Experts 모델은 학습·대규모 배치에는 효율적이지만, 한 번에 한 토큰씩 생성하는 decode 구간에서는 expert routing과 데이터 재배치 오버헤드가 병목이 되기 쉽다.
Cursor의 warp decode는 바로 이 decode 병목을 겨냥한 커널 레벨 최적화다. 핵심 아이디어는 기존 MoE 추론이 expert를 중심으로 토큰을 모아 계산하던 방식을 버리고, 각 warp가 하나의 output scalar를 책임지도록 병렬화 축을 뒤집는 것이다. 이는 단순 kernel fusion보다 더 근본적인 재구성에 가깝다.
핵심 내용
Cursor 설명에 따르면 기존 expert-centric path는 padding, scattering, combine 등 데이터 레이아웃을 맞추기 위한 bookkeeping 단계가 많았고, decode 시점의 작은 배치에서는 이 오버헤드가 거의 그대로 남았다. Warp decode는 이 중 다섯 단계를 제거하고, moe_gate_up_3d_batched와 moe_down_3d_batched 두 커널만으로 계산을 끝낸다. 각 warp는 하나의 neuron 또는 output dimension을 전담하고, routed expert들의 contribution을 FP32 accumulator에 직접 합산한다.
이 구조 덕분에 shared memory staging, cross-warp synchronization, intermediate buffer가 크게 줄어든다. Cursor는 per-expert output buffer와 activation gather buffer를 제거해 토큰당 32KB 이상 intermediate traffic을 없앴다고 설명한다. 결과적으로 Qwen-3 스타일 모델을 NVIDIA B200에서 돌렸을 때 end-to-end decode throughput이 1.84x 향상됐고, output은 full FP32 reference에 1.4x 더 가깝게 나왔다고 주장했다. 하드웨어 측면에서는 B200의 측정 peak 6.8 TB/s 대비 3.95 TB/s를 달성했다고 제시했다.
경쟁 구도 / 비교
이 발표는 vLLM, TensorRT-LLM, 각종 vendor kernel optimization 경쟁과 같은 흐름에 있지만, 포인트가 조금 다르다. 많은 시스템이 prefill이나 large-batch inference 최적화에 집중하는 반면, Cursor는 small-batch decode에서 expert-centric 구조 자체가 비효율적이라고 보고 병렬화 축을 뒤집었다. 즉 같은 MoE라도 prefill과 decode를 전혀 다른 문제로 취급해야 한다는 관점을 드러낸다.
또한 이 최적화는 단순 속도 개선에 머물지 않는다. intermediate activation quantization을 없애고 BF16 activation과 FP32 accumulation을 유지함으로써 정확도까지 개선했다는 점이 중요하다. 성능을 높이면 보통 정밀도를 일부 희생하는 경우가 많은데, 여기서는 반대로 두 축을 동시에 개선했다고 주장한다는 점에서 시스템 연구의 가치가 크다.
의미
Cursor의 사례는 AI 제품 기업이 결국 model company이면서 systems company가 되어야 한다는 사실을 보여준다. 모델 품질, RL, 데이터뿐 아니라 kernel design, memory bandwidth utilization, hardware scheduling 이해가 제품 업데이트 속도와 운영비를 좌우한다. 에이전트 시대에는 같은 모델이라도 누가 더 빠르고 정확하게 추론하느냐가 사용자 체감 품질을 크게 바꾼다.
실무적으로는 inference 최적화가 infra cost 절감 프로젝트를 넘어 product strategy가 된다. 특히 MoE 기반 모델을 서비스하는 팀은 decode 경로에서 발생하는 padding, scatter, combine, buffer traffic을 별도 지표로 보고, prefill 최적화와 분리된 시스템 설계를 검토할 필요가 있다. 앞으로 frontier 경쟁력은 모델 사이즈만이 아니라 이런 하부 엔지니어링 역량에서 더 자주 갈릴 가능성이 높다.