Feature Article
vLLM Model Runner V2 출시 — Prefill-Decode 분리 스케줄링으로 오픈소스 LLM 추론 아키텍처 혁신
2026년 3월, vLLM 프로젝트가 Model Runner V2(MRV2)를 릴리즈했다. 기존 스케줄러 아키텍처를 전면 재설계하여 Prefill-Decode 완전 분리 스케줄링과 Zero-Copy DMA 전송을 도입했다. HuggingFace 대비 24배 처리량을 유지하며 GitHub 스타 74,900개로 프로덕션 LLM 추론 엔진의 사실상 표준 위치를 공고히 했다. 🔍 왜 주목해야…
배경 및 맥락
vLLM은 2023년 UC Berkeley에서 시작된 오픈소스 LLM 추론 엔진으로, PagedAttention 기법을 처음 도입해 HuggingFace 대비 24배 처리량 향상을 달성했다. 이후 빠르게 산업 표준으로 자리잡아 OpenAI API 호환 인터페이스를 통해 self-hosting 환경에서 가장 광범위하게 채택된 추론 엔진이 됐다. 2026년 3월 기준 GitHub 스타 74,900개, 88회 릴리즈를 달성했다.
그러나 LLM 추론의 실제 배포 환경이 복잡해지면서 구조적 한계가 드러났다. 특히 다양한 컨텍스트 길이의 요청이 혼합되는 멀티 에이전트 환경에서, 긴 Prefill 작업이 짧은 Decode 작업을 블로킹하는 문제가 레이턴시와 처리량 모두에 악영향을 줬다. AI 에이전트가 복잡한 문서를 처리하는 긴 작업과 빠른 판단을 요구하는 짧은 쿼리를 동시에 처리해야 하는 상황이 일상화되면서 이 문제는 더욱 부각됐다.
핵심 내용
출시: 2026년 3월, Model Runner V2(MRV2) 공식 릴리즈 (vLLM V1 엔진의 모델 실행 레이어 전면 재구현)
주요 아키텍처 변경:
1. Prefill-Decode 완전 분리 스케줄링
- Prefill(입력 처리): 컴퓨트 집중적, 큰 배치 크기에 최적화
- Decode(토큰 생성): 메모리 대역폭 집중, 낮은 레이턴시 중심
- 두 Phase를 독립적으로 스케줄링해 긴 Prefill이 Decode를 블로킹하는 문제 완전 해소
2. Zero-Copy DMA 전송
- 기존 아키텍처: 스케줄링 결정 중 GPU-CPU 간 중간 텐서 복사 발생
- MRV2: 호스트 메모리 핀닝 + 직접 DMA 전송으로 중복 복사 제거
- 고동시성 환경에서 스케줄링 오버헤드 대폭 감소
현황:
- GitHub 스타 74,900개 (2026년 3월 기준)
- 88회 릴리즈 달성
- HuggingFace 대비 24배 처리량 지속 유지
경쟁 구도 / 비교
오픈소스 LLM 추론 엔진 시장에서 vLLM의 경쟁자:
| 엔진 | 강점 | 약점 |
|---|---|---|
| vLLM MRV2 | OpenAI API 호환, 최대 모델 지원, 커뮤니티 | NVIDIA TRT-LLM 대비 최대 처리량 낮음 |
| TensorRT-LLM (NVIDIA) | NVIDIA GPU 최적 처리량 | NVIDIA 전용, 복잡한 세팅 |
| HuggingFace TGI | 쉬운 배포 | vLLM 대비 24배 낮은 처리량 |
| LMDeploy | 경량화, 모바일 지원 | 생태계 규모 작음 |
vLLM의 압도적 우위는 생태계(모델 호환성, 문서, 커뮤니티)에 있으며, MRV2로 성능 격차도 좁혀지고 있다.
의미
MRV2는 단순한 성능 업그레이드가 아니라 vLLM이 멀티 에이전트 시대의 추론 인프라로 자리잡기 위한 아키텍처 기반을 완성한 릴리즈다. AI 에이전트가 짧은 판단 쿼리와 긴 문서 처리를 동시에 수행하는 프로덕션 환경에서, Prefill-Decode 분리는 시스템 전체의 응답성을 결정하는 핵심 요소다. 온프레미스 LLM 인프라를 구축하는 팀에게 MRV2로의 마이그레이션은 비용과 성능 모두에서 실질적 이득을 제공할 것이다. 또한 오픈소스 추론 엔진의 성숙은 API 서비스 종속성을 줄이려는 기업들에게 현실적인 대안을 제공한다.