PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 5월 12일

vLLM x Mooncake — agent 인프라 병목이 모델 추론보다 distributed KV cache 설계로 이동

vLLM은 2026년 5월 6일 Mooncake Store를 붙인 distributed KV cache pool 설계를 공개했다. Codex 기반 SWE-bench Pro trace 610개를 분석한 결과 agent session은 median 33 turns, 평균 input-to-output ratio 131:1, context가 trace당 12K에서 80K 토큰으로 커졌고, 이…

본문 읽기원문 보기

발행일

2026년 5월 12일

업데이트

2026년 5월 12일

주제

AI
에이전트
오픈소스
원문 보기

배경 및 맥락

일반적인 chatbot serving은 요청 하나가 끝나면 문맥도 함께 정리되는 편이지만, coding agent나 browsing agent는 다르다. 하나의 사용자 요청이 수십 번의 tool call과 reasoning loop로 이어지고, 이전 대화와 툴 출력이 계속 prefix로 재사용된다. 겉으로는 같은 LLM serving처럼 보여도, 실제 부하는 긴 문맥을 매번 다시 prefill하는 구조에서 나온다.

vLLM이 Mooncake와 함께 공개한 글은 이 차이를 정량적으로 보여준다. agent workload에서는 모델 자체의 token/sec보다 "반복되는 prefix를 얼마나 효율적으로 공유하느냐"가 병목이 된다.


핵심 내용

vLLM 팀은 Codex와 GPT-5.4 기반 SWE-bench Pro trace 610개를 분석해 agent 세션 특성을 공개했다. median 33 turns, 평균 input-to-output ratio 131:1, turn당 평균 context 증가 2,242 tokens, trace당 median context는 12K에서 80K tokens로 커졌고 긴 경우 180K를 넘었다. 즉 각 turn에서 새로 들어오는 건 수백~수천 토큰인데, 대부분은 이전 prefix 재계산 비용이다.

이를 줄이기 위해 Mooncake Store를 distributed KV cache pool로 연결했다. 여러 vLLM 인스턴스가 RDMA와 GPUDirect RDMA 기반으로 KV block을 공유하게 만들었고, realistic Codex trace에서는 throughput 3.8x, P50 TTFT 46x, E2E latency 8.6x 개선을 기록했다. cache hit rate도 baseline 1.7%에서 92.2%로 상승했고, 60 GB200 GPU까지 거의 선형 확장을 보였다고 설명한다.


경쟁 구도 / 비교

기존 LLM serving 최적화는 batching, quantization, speculative decoding, prefill/decode disaggregation 같은 엔진 내부 최적화가 중심이었다. 하지만 agent workload에서는 세션이 다른 인스턴스로 이동하면 기존 local KV cache가 무력화되고 prefix를 처음부터 다시 계산해야 한다. 이 때문에 distributed KV pool과 cache-aware routing이 성능의 핵심으로 부상한다.

이는 Databricks처럼 agent control plane을 통합하려는 흐름과는 다른 층위지만, 실제 운영 경쟁력은 양쪽이 만나야 완성된다. orchestration 플랫폼이 아무리 좋아도 cache economics를 못 잡으면 긴 세션 agent는 비용과 latency에서 무너질 수 있다.


의미

기술적으로는 agent serving이 단순 inference optimization 문제에서 distributed systems 문제로 넘어가고 있다. KV cache는 일시적 버퍼가 아니라 cluster-level memory hierarchy의 일부가 되고 있으며, router, storage, RDMA, GPU memory가 함께 설계돼야 한다.

실무적으로는 장기 세션 agent를 돌리는 팀의 관측 지표도 바뀌어야 한다. token throughput만이 아니라 cache hit rate, prefix reuse ratio, session stickiness, inter-turn delay 분포를 봐야 한다. 향후 agent 인프라의 승부처는 모델 벤더가 아니라 serving stack과 memory architecture가 될 가능성이 크다.

이어 읽기

관련 읽을거리

전체 보기
2026년 6월 12일OpenEnv committee launch — open agent training이 harness별 튜닝에서 공유 environment protocol로 이동Hugging Face는 2026년 6월 8일 OpenEnv가 Meta-PyTorch, Nvidia, Modal, Prime Intellect, Unsloth 등과 함께 위원회 기반 프로젝트로 전환됐다고 발표했다. OpenEnv는 터미널, 브라우저 등 agent execution environment를 표준 인터페이스로 노출하는 레이어로 정의되며,…2026년 6월 4일Redis Iris — agent stack이 prompt tuning에서 context engine 아키텍처로 이동Redis는 2026년 5월 18일 Redis Iris를 발표하며 agent failure의 핵심 원인을 모델 성능이 아니라 context layer의 분산·지연·낙후 문제로 규정했다. Iris는 Context Retriever, Agent Memory, Data Integration, LangCache, Redis Search 다섯 요소를 묶어…2026년 5월 31일Introducing Trusted Remote Execution: Policy-Enforced Scripts for AI Agents and HumansAWS는 2026년 5월 4일 Trusted Remote Execution(Rex)을 오픈소스로 공개했다. Rex는 Rhai 스크립트가 host에 직접 접근하지 못하게 하고, 모든 시스템 작업을 Cedar policy로 승인한 뒤에만 실행하는 runtime으로, AI agent가 만든 스크립트도 동일한 정책 경계 안에서 동작한다.2026년 5월 30일Introducing Search Toolkit — agent retrieval 경쟁이 RAG 데모에서 검색 파이프라인 운영력으로 이동Mistral은 2026년 5월 28일 Search Toolkit을 public preview로 공개했다. 이 오픈소스 프레임워크는 ingestion, retrieval, evaluation을 하나의 공통 인터페이스로 묶고, BM25·dense retrieval·hybrid search와 recall, precision, MRR, NDCG 평가를 함께 제공한다.