Curated AI Magazine

PICKLEE

AI Field Notes For Builders

Feature Article

vLLM Model Runner V2 출시 — Prefill-Decode 분리 스케줄링으로 오픈소스 LLM 추론 아키텍처 혁신

2026년 3월, vLLM 프로젝트가 Model Runner V2(MRV2)를 릴리즈했다. 기존 스케줄러 아키텍처를 전면 재설계하여 Prefill-Decode 완전 분리 스케줄링과 Zero-Copy DMA 전송을 도입했다. HuggingFace 대비 24배 처리량을 유지하며 GitHub 스타 74,900개로 프로덕션 LLM 추론 엔진의 사실상 표준 위치를 공고히 했다. 🔍 왜 주목해야…

Meta

2026년 4월 2일

수정 2026년 4월 2일

원문 링크

배경 및 맥락

vLLM은 2023년 UC Berkeley에서 시작된 오픈소스 LLM 추론 엔진으로, PagedAttention 기법을 처음 도입해 HuggingFace 대비 24배 처리량 향상을 달성했다. 이후 빠르게 산업 표준으로 자리잡아 OpenAI API 호환 인터페이스를 통해 self-hosting 환경에서 가장 광범위하게 채택된 추론 엔진이 됐다. 2026년 3월 기준 GitHub 스타 74,900개, 88회 릴리즈를 달성했다.

그러나 LLM 추론의 실제 배포 환경이 복잡해지면서 구조적 한계가 드러났다. 특히 다양한 컨텍스트 길이의 요청이 혼합되는 멀티 에이전트 환경에서, 긴 Prefill 작업이 짧은 Decode 작업을 블로킹하는 문제가 레이턴시와 처리량 모두에 악영향을 줬다. AI 에이전트가 복잡한 문서를 처리하는 긴 작업과 빠른 판단을 요구하는 짧은 쿼리를 동시에 처리해야 하는 상황이 일상화되면서 이 문제는 더욱 부각됐다.


핵심 내용

출시: 2026년 3월, Model Runner V2(MRV2) 공식 릴리즈 (vLLM V1 엔진의 모델 실행 레이어 전면 재구현)

주요 아키텍처 변경:

1. Prefill-Decode 완전 분리 스케줄링

  • Prefill(입력 처리): 컴퓨트 집중적, 큰 배치 크기에 최적화
  • Decode(토큰 생성): 메모리 대역폭 집중, 낮은 레이턴시 중심
  • 두 Phase를 독립적으로 스케줄링해 긴 Prefill이 Decode를 블로킹하는 문제 완전 해소

2. Zero-Copy DMA 전송

  • 기존 아키텍처: 스케줄링 결정 중 GPU-CPU 간 중간 텐서 복사 발생
  • MRV2: 호스트 메모리 핀닝 + 직접 DMA 전송으로 중복 복사 제거
  • 고동시성 환경에서 스케줄링 오버헤드 대폭 감소

현황:

  • GitHub 스타 74,900개 (2026년 3월 기준)
  • 88회 릴리즈 달성
  • HuggingFace 대비 24배 처리량 지속 유지

경쟁 구도 / 비교

오픈소스 LLM 추론 엔진 시장에서 vLLM의 경쟁자:

엔진강점약점
vLLM MRV2OpenAI API 호환, 최대 모델 지원, 커뮤니티NVIDIA TRT-LLM 대비 최대 처리량 낮음
TensorRT-LLM (NVIDIA)NVIDIA GPU 최적 처리량NVIDIA 전용, 복잡한 세팅
HuggingFace TGI쉬운 배포vLLM 대비 24배 낮은 처리량
LMDeploy경량화, 모바일 지원생태계 규모 작음

vLLM의 압도적 우위는 생태계(모델 호환성, 문서, 커뮤니티)에 있으며, MRV2로 성능 격차도 좁혀지고 있다.


의미

MRV2는 단순한 성능 업그레이드가 아니라 vLLM이 멀티 에이전트 시대의 추론 인프라로 자리잡기 위한 아키텍처 기반을 완성한 릴리즈다. AI 에이전트가 짧은 판단 쿼리와 긴 문서 처리를 동시에 수행하는 프로덕션 환경에서, Prefill-Decode 분리는 시스템 전체의 응답성을 결정하는 핵심 요소다. 온프레미스 LLM 인프라를 구축하는 팀에게 MRV2로의 마이그레이션은 비용과 성능 모두에서 실질적 이득을 제공할 것이다. 또한 오픈소스 추론 엔진의 성숙은 API 서비스 종속성을 줄이려는 기업들에게 현실적인 대안을 제공한다.

Related

관련 글

2026년 3월 26일

Dapr Agents v1.0 GA: 프로덕션 AI 에이전트의 Kubernetes 클라우드 네이티브 표준

CNCF(Cloud Native Computing Foundation)가 KubeCon + CloudNativeCon Europe 2026(암스테르담)에서 Dapr Agents v1.0 정식 출시를 발표했다. NVIDIA와 오픈소스 커뮤니티가 1년간 협업한 이 Python 프레임워크는 내구성 있는 워크플로우 엔진, 상태 관리, 안전한 멀티 에이전트 조율 기능을 제공한다. 🔍 왜 주목해야…

2026년 4월 3일

Chrome 제로데이 CVE-2026-5281 — WebGPU use-after-free 실제 악용, CISA 긴급 패치 요구

Google이 Chrome v146에서 WebGPU 구현체 Dawn의 use-after-free 취약점(CVE-2026-5281)을 수정하는 긴급 패치를 배포했다. 이는 2026년 Chrome의 네 번째 제로데이로, CISA가 Known Exploited Vulnerabilities 목록에 등록하고 연방기관에 4월 15일까지 패치를 의무화했다. 🔍 왜 주목해야 하나 WebGPU는…

2026년 4월 3일

GitHub Copilot CLI /fleet 공개 — 병렬 서브에이전트로 코드 작업 동시 실행

GitHub가 2026년 4월 1일 Copilot CLI의 /fleet 기능을 공개했다. 이 기능은 하나의 작업을 여러 하위 작업으로 분해한 뒤, 서로 독립적인 파일·모듈 단위 작업을 병렬 서브에이전트에 배분해 동시에 실행한다. 🔍 왜 주목해야 하나 AI 코딩 도구 경쟁이 이제 단일 모델 품질에서 오케스트레이션 품질로 이동하고 있다는 점이 핵심이다. /fleet은 에이전트가 직접 일을…

2026년 4월 3일

NVIDIA Mission Control 3.0 공개 — AI 팩토리 운영 KPI를 ‘GPU 활용률’에서 ‘token per watt’로 전환

NVIDIA가 2026년 4월 1일 Mission Control 3.0을 발표했다. 새 버전은 API 기반 모듈형 아키텍처, 다중 조직 격리, 전력 스케줄링, 예측형 AIOps를 결합해 대규모 AI 팩토리 운영을 소프트웨어 정의 방식으로 관리하도록 설계됐다. 🔍 왜 주목해야 하나 이 발표의 본질은 AI 인프라 운영 지표가 바뀌고 있다는 점이다. 기존 데이터센터가 GPU…

Re-entry

최신 글 재진입

아티클 목록으로