PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 4월 2일

vLLM Model Runner V2 출시 — Prefill-Decode 분리 스케줄링으로 오픈소스 LLM 추론 아키텍처 혁신

2026년 3월, vLLM 프로젝트가 Model Runner V2(MRV2)를 릴리즈했다. 기존 스케줄러 아키텍처를 전면 재설계하여 Prefill-Decode 완전 분리 스케줄링과 Zero-Copy DMA 전송을 도입했다. HuggingFace 대비 24배 처리량을 유지하며 GitHub 스타 74,900개로 프로덕션 LLM 추론 엔진의 사실상 표준 위치를 공고히 했다.

본문 읽기원문 보기

발행일

2026년 4월 2일

업데이트

2026년 4월 2일

주제

AI
오픈소스
개발도구
트렌드
원문 보기

배경 및 맥락

vLLM은 2023년 UC Berkeley에서 시작된 오픈소스 LLM 추론 엔진으로, PagedAttention 기법을 처음 도입해 HuggingFace 대비 24배 처리량 향상을 달성했다. 이후 빠르게 산업 표준으로 자리잡아 OpenAI API 호환 인터페이스를 통해 self-hosting 환경에서 가장 광범위하게 채택된 추론 엔진이 됐다. 2026년 3월 기준 GitHub 스타 74,900개, 88회 릴리즈를 달성했다.

그러나 LLM 추론의 실제 배포 환경이 복잡해지면서 구조적 한계가 드러났다. 특히 다양한 컨텍스트 길이의 요청이 혼합되는 멀티 에이전트 환경에서, 긴 Prefill 작업이 짧은 Decode 작업을 블로킹하는 문제가 레이턴시와 처리량 모두에 악영향을 줬다. AI 에이전트가 복잡한 문서를 처리하는 긴 작업과 빠른 판단을 요구하는 짧은 쿼리를 동시에 처리해야 하는 상황이 일상화되면서 이 문제는 더욱 부각됐다.


핵심 내용

출시: 2026년 3월, Model Runner V2(MRV2) 공식 릴리즈 (vLLM V1 엔진의 모델 실행 레이어 전면 재구현)

주요 아키텍처 변경:

1. Prefill-Decode 완전 분리 스케줄링

  • Prefill(입력 처리): 컴퓨트 집중적, 큰 배치 크기에 최적화
  • Decode(토큰 생성): 메모리 대역폭 집중, 낮은 레이턴시 중심
  • 두 Phase를 독립적으로 스케줄링해 긴 Prefill이 Decode를 블로킹하는 문제 완전 해소

2. Zero-Copy DMA 전송

  • 기존 아키텍처: 스케줄링 결정 중 GPU-CPU 간 중간 텐서 복사 발생
  • MRV2: 호스트 메모리 핀닝 + 직접 DMA 전송으로 중복 복사 제거
  • 고동시성 환경에서 스케줄링 오버헤드 대폭 감소

현황:

  • GitHub 스타 74,900개 (2026년 3월 기준)
  • 88회 릴리즈 달성
  • HuggingFace 대비 24배 처리량 지속 유지

경쟁 구도 / 비교

오픈소스 LLM 추론 엔진 시장에서 vLLM의 경쟁자:

엔진강점약점
vLLM MRV2OpenAI API 호환, 최대 모델 지원, 커뮤니티NVIDIA TRT-LLM 대비 최대 처리량 낮음
TensorRT-LLM (NVIDIA)NVIDIA GPU 최적 처리량NVIDIA 전용, 복잡한 세팅
HuggingFace TGI쉬운 배포vLLM 대비 24배 낮은 처리량
LMDeploy경량화, 모바일 지원생태계 규모 작음

vLLM의 압도적 우위는 생태계(모델 호환성, 문서, 커뮤니티)에 있으며, MRV2로 성능 격차도 좁혀지고 있다.


의미

MRV2는 단순한 성능 업그레이드가 아니라 vLLM이 멀티 에이전트 시대의 추론 인프라로 자리잡기 위한 아키텍처 기반을 완성한 릴리즈다. AI 에이전트가 짧은 판단 쿼리와 긴 문서 처리를 동시에 수행하는 프로덕션 환경에서, Prefill-Decode 분리는 시스템 전체의 응답성을 결정하는 핵심 요소다. 온프레미스 LLM 인프라를 구축하는 팀에게 MRV2로의 마이그레이션은 비용과 성능 모두에서 실질적 이득을 제공할 것이다. 또한 오픈소스 추론 엔진의 성숙은 API 서비스 종속성을 줄이려는 기업들에게 현실적인 대안을 제공한다.

이어 읽기

관련 읽을거리

전체 보기
2026년 5월 25일PyTorch 2.12 Release — 모델 프레임워크 경쟁이 연구 편의성에서 하드웨어 중립 배포와 추론 효율로 이동PyTorch Foundation은 2026년 5월 13일 PyTorch 2.12를 공개했다. 이번 릴리스는 CUDA에서 batched linalg.eigh 최대 100배 가속, torch.accelerator.Graph를 통한 CUDA/XPU 공통 graph capture API, torch.export의 Microscaling quantization 포맷 지원, torch.cond의…2026년 4월 15일Graphify — 코드·문서·영상을 쿼리 가능한 지식 그래프로 변환하는 AI 도구코드(25개 언어), 문서, 논문, 이미지, 비디오 등 다양한 파일을 분석해 쿼리 가능한 지식 그래프로 변환하는 AI 어시스턴트 스킬. Tree-sitter AST로 코드 구조를 추출하고, Claude Vision으로 이미지를 분석하며, faster-whisper로 영상/오디오를 로컬 변환한다. 원본 대비 71.5배 토큰 감소. GitHub 스타 26.6k.2026년 4월 8일Show HN: I built a tiny LLM to demystify how language models work작은 물고기처럼 말하는 ~9M 매개변수 LLM입니다. GitHub에 계정을 만들어 arman-bd/guppylm 개발에 기여하세요.2026년 4월 8일awesome-design-md — AI 에이전트를 위한 디자인 시스템 컬렉션Google Stitch의 DESIGN 문서 개념을 바탕으로, 유명 서비스의 시각 언어를 Markdown으로 정리해 AI 코딩 에이전트가 유사한 UI를 구현하도록 돕는 오픈소스 컬렉션. 공식 디자인 시스템이 아니라 공개 웹사이트를 바탕으로 추출한 비공식 레퍼런스라는 점이 핵심이다.