PickleeAI와 개발에 대한 짧은 노트
홈아티클아카이브검색

끝까지 읽는 글

AI와 개발에 관한 변화 중에서 블로그처럼 오래 읽을 수 있는 글만 골라 정리합니다.

© 2026 Picklee

RSSSitemap

글

2026년 5월 12일수정 2026년 5월 12일원문

vLLM x Mooncake — agent 인프라 병목이 모델 추론보다 distributed KV cache 설계로 이동

vLLM은 2026년 5월 6일 Mooncake Store를 붙인 distributed KV cache pool 설계를 공개했다. Codex 기반 SWE-bench Pro trace 610개를 분석한 결과 agent session은 median 33 turns, 평균 input-to-output ratio 131:1, context가 trace당 12K에서 80K 토큰으로 커졌고, 이…

AI
에이전트
오픈소스

배경 및 맥락

일반적인 chatbot serving은 요청 하나가 끝나면 문맥도 함께 정리되는 편이지만, coding agent나 browsing agent는 다르다. 하나의 사용자 요청이 수십 번의 tool call과 reasoning loop로 이어지고, 이전 대화와 툴 출력이 계속 prefix로 재사용된다. 겉으로는 같은 LLM serving처럼 보여도, 실제 부하는 긴 문맥을 매번 다시 prefill하는 구조에서 나온다.

vLLM이 Mooncake와 함께 공개한 글은 이 차이를 정량적으로 보여준다. agent workload에서는 모델 자체의 token/sec보다 "반복되는 prefix를 얼마나 효율적으로 공유하느냐"가 병목이 된다.


핵심 내용

vLLM 팀은 Codex와 GPT-5.4 기반 SWE-bench Pro trace 610개를 분석해 agent 세션 특성을 공개했다. median 33 turns, 평균 input-to-output ratio 131:1, turn당 평균 context 증가 2,242 tokens, trace당 median context는 12K에서 80K tokens로 커졌고 긴 경우 180K를 넘었다. 즉 각 turn에서 새로 들어오는 건 수백~수천 토큰인데, 대부분은 이전 prefix 재계산 비용이다.

이를 줄이기 위해 Mooncake Store를 distributed KV cache pool로 연결했다. 여러 vLLM 인스턴스가 RDMA와 GPUDirect RDMA 기반으로 KV block을 공유하게 만들었고, realistic Codex trace에서는 throughput 3.8x, P50 TTFT 46x, E2E latency 8.6x 개선을 기록했다. cache hit rate도 baseline 1.7%에서 92.2%로 상승했고, 60 GB200 GPU까지 거의 선형 확장을 보였다고 설명한다.


경쟁 구도 / 비교

기존 LLM serving 최적화는 batching, quantization, speculative decoding, prefill/decode disaggregation 같은 엔진 내부 최적화가 중심이었다. 하지만 agent workload에서는 세션이 다른 인스턴스로 이동하면 기존 local KV cache가 무력화되고 prefix를 처음부터 다시 계산해야 한다. 이 때문에 distributed KV pool과 cache-aware routing이 성능의 핵심으로 부상한다.

이는 Databricks처럼 agent control plane을 통합하려는 흐름과는 다른 층위지만, 실제 운영 경쟁력은 양쪽이 만나야 완성된다. orchestration 플랫폼이 아무리 좋아도 cache economics를 못 잡으면 긴 세션 agent는 비용과 latency에서 무너질 수 있다.


의미

기술적으로는 agent serving이 단순 inference optimization 문제에서 distributed systems 문제로 넘어가고 있다. KV cache는 일시적 버퍼가 아니라 cluster-level memory hierarchy의 일부가 되고 있으며, router, storage, RDMA, GPU memory가 함께 설계돼야 한다.

실무적으로는 장기 세션 agent를 돌리는 팀의 관측 지표도 바뀌어야 한다. token throughput만이 아니라 cache hit rate, prefix reuse ratio, session stickiness, inter-turn delay 분포를 봐야 한다. 향후 agent 인프라의 승부처는 모델 벤더가 아니라 serving stack과 memory architecture가 될 가능성이 크다.

더 읽기

같이 읽어볼 만한 글

전체 글 보기
2026년 5월 9일

NVIDIA and ServiceNow Partner on New Autonomous AI Agents for Enterprises — desktop agent 경쟁이 모델 성능에서 governed runtime으로 이동

NVIDIA와 ServiceNow는 2026년 5월 5일 기업용 자율 에이전트 협업을 확대한다고 발표했다. ServiceNow는 로컬 파일시스템·터미널·설치 앱에 접근할 수 있는 장기 실행형 desktop agent Project Arc를 공개했고, 이 에이전트는 NVIDIA OpenShell이라는 오픈소스 sandboxed runtime과 ServiceNow AI Control…

2026년 5월 2일

NVIDIA Nemotron 3 Nano Omni — multimodal agent 스택이 모델 조합에서 단일 perception sub-agent로 수렴

NVIDIA는 2026년 4월 28일 vision·audio·video·text를 한 모델에서 처리하는 오픈 multimodal reasoning model Nemotron 3 Nano Omni를 발표했다. 이 모델은 30B-A3B hybrid MoE, 256K context를 기반으로 document intelligence·video/audio understanding…

2026년 5월 1일

Warp is now open-source — ADE 경쟁이 제품 기능에서 오픈 에이전트 운영체제로 확장

Warp는 2026년 4월 28일 Warp client를 AGPL로 오픈소스화하고, Oz 기반 agent-first 기여 워크플로를 공개했다. 동시에 Kimi·MiniMax·Qwen 지원 확대, auto (open) 모델 라우팅, 설정 파일 추가로 IDE/ADE를 더 개방형 표면으로 재구성했다. 🔍 왜 주목해야 하나 이 발표의 핵심은 오픈소스화 자체보다도 "agent가 구현을 맡고,…

2026년 4월 30일

Qwen3.6 — 오픈 코딩 모델 경쟁이 벤치마크보다 저장된 추론과 레포 단위 작업 완성도로 이동

Qwen 팀은 2026년 4월 Qwen3.6 시리즈를 공개하며 35B-A3B와 27B 모델을 순차 배포했다. 공식 저장소 기준으로 이번 릴리스는 agentic coding, front-end workflow, repository-level reasoning 강화와 함께 conversation history 전반에 thinking context를 유지하는 Thinking…