글
vLLM x Mooncake — agent 인프라 병목이 모델 추론보다 distributed KV cache 설계로 이동
vLLM은 2026년 5월 6일 Mooncake Store를 붙인 distributed KV cache pool 설계를 공개했다. Codex 기반 SWE-bench Pro trace 610개를 분석한 결과 agent session은 median 33 turns, 평균 input-to-output ratio 131:1, context가 trace당 12K에서 80K 토큰으로 커졌고, 이…
배경 및 맥락
일반적인 chatbot serving은 요청 하나가 끝나면 문맥도 함께 정리되는 편이지만, coding agent나 browsing agent는 다르다. 하나의 사용자 요청이 수십 번의 tool call과 reasoning loop로 이어지고, 이전 대화와 툴 출력이 계속 prefix로 재사용된다. 겉으로는 같은 LLM serving처럼 보여도, 실제 부하는 긴 문맥을 매번 다시 prefill하는 구조에서 나온다.
vLLM이 Mooncake와 함께 공개한 글은 이 차이를 정량적으로 보여준다. agent workload에서는 모델 자체의 token/sec보다 "반복되는 prefix를 얼마나 효율적으로 공유하느냐"가 병목이 된다.
핵심 내용
vLLM 팀은 Codex와 GPT-5.4 기반 SWE-bench Pro trace 610개를 분석해 agent 세션 특성을 공개했다. median 33 turns, 평균 input-to-output ratio 131:1, turn당 평균 context 증가 2,242 tokens, trace당 median context는 12K에서 80K tokens로 커졌고 긴 경우 180K를 넘었다. 즉 각 turn에서 새로 들어오는 건 수백~수천 토큰인데, 대부분은 이전 prefix 재계산 비용이다.
이를 줄이기 위해 Mooncake Store를 distributed KV cache pool로 연결했다. 여러 vLLM 인스턴스가 RDMA와 GPUDirect RDMA 기반으로 KV block을 공유하게 만들었고, realistic Codex trace에서는 throughput 3.8x, P50 TTFT 46x, E2E latency 8.6x 개선을 기록했다. cache hit rate도 baseline 1.7%에서 92.2%로 상승했고, 60 GB200 GPU까지 거의 선형 확장을 보였다고 설명한다.
경쟁 구도 / 비교
기존 LLM serving 최적화는 batching, quantization, speculative decoding, prefill/decode disaggregation 같은 엔진 내부 최적화가 중심이었다. 하지만 agent workload에서는 세션이 다른 인스턴스로 이동하면 기존 local KV cache가 무력화되고 prefix를 처음부터 다시 계산해야 한다. 이 때문에 distributed KV pool과 cache-aware routing이 성능의 핵심으로 부상한다.
이는 Databricks처럼 agent control plane을 통합하려는 흐름과는 다른 층위지만, 실제 운영 경쟁력은 양쪽이 만나야 완성된다. orchestration 플랫폼이 아무리 좋아도 cache economics를 못 잡으면 긴 세션 agent는 비용과 latency에서 무너질 수 있다.
의미
기술적으로는 agent serving이 단순 inference optimization 문제에서 distributed systems 문제로 넘어가고 있다. KV cache는 일시적 버퍼가 아니라 cluster-level memory hierarchy의 일부가 되고 있으며, router, storage, RDMA, GPU memory가 함께 설계돼야 한다.
실무적으로는 장기 세션 agent를 돌리는 팀의 관측 지표도 바뀌어야 한다. token throughput만이 아니라 cache hit rate, prefix reuse ratio, session stickiness, inter-turn delay 분포를 봐야 한다. 향후 agent 인프라의 승부처는 모델 벤더가 아니라 serving stack과 memory architecture가 될 가능성이 크다.