Feature Article

NVIDIA Blackwell Ultra, MLPerf Inference v6.0 신기록 — 288 GPU로 DeepSeek-R1 초당 249만 토큰 처리

NVIDIA Blackwell Ultra(GB300 NVL72 4시스템, 총 288 GPU)가 MLPerf Inference v6.0에서 DeepSeek-R1 오프라인 처리량 기준 초당 249만 토큰을 기록하며 6개월 전 대비 최대 2.77배 향상된 성능으로 전 카테고리를 석권했다. 이번 벤치마크에 Qwen3-VL-235B, GPT-OSS-120B, 텍스트-투-비디오(WAN-2.2) 등…

배경 및 맥락

MLPerf(Machine Learning Performance)는 MLCommons가 주관하는 AI 하드웨어 및 소프트웨어 성능의 표준 벤치마크로, 업계 전반의 HW/SW 스택 비교를 위한 사실상의 공인 지표다. 2026년 4월 1~2일 공개된 MLPerf Inference v6.0은 이전 버전 대비 4개의 새로운 벤치마크 모델을 추가했다.

NVIDIA는 2018년 MLPerf 개시 이후 누적 291번의 1위를 기록했으며, 이는 다른 모든 제출자의 합산 수치의 9배에 달한다. 이번 v6.0은 H100 기반 Hopper 세대에서 Blackwell Ultra(B200/GB300) 세대로의 전환을 처음으로 대규모 공인 벤치마크로 검증하는 자리였다.

핵심 내용

최고 성능 시스템: GB300 NVL72 4시스템 (총 288개 Blackwell Ultra GPU — MLPerf 역대 최대 GPU 구성)

벤치마크	성능 결과	전 세대 대비 향상
DeepSeek-R1 오프라인 처리량	2,490,000 tokens/sec	2.77배
GPT-OSS-120B 오프라인	1,050,000 tokens/sec	—
Llama 3.1 405B 오프라인	—	1.21배
Qwen3-VL-235B-A22B	79 samples/sec	신규 항목
WAN-2.2-T2V-A14B (텍스트-투-비디오)	21초 레이턴시	신규 항목

신규 추가 벤치마크 (v6.0):

Qwen3-VL-235B-A22B: 비전-언어 MoE 모델
GPT-OSS-120B: OpenAI의 첫 오픈웨이트 모델 추론
WAN-2.2-T2V-A14B: 텍스트-투-비디오 생성
DLRMv3: 트랜스포머 기반 추천 시스템

에코시스템 지표: 14개 파트너사 제출 (NVIDIA 플랫폼 위) — MLPerf 역대 단일 플랫폼 최대 파트너 참여

누적 기록: NVIDIA MLPerf 누적 1위 291회 (타 제출자 전체 합산의 9배)

경쟁 구도 / 비교

이번 벤치마크에서 AMD(Instinct MI350X), Intel(Gaudi 3), Qualcomm, Google TPU 등도 제출했으나, NVIDIA Blackwell Ultra 대비 전체 처리량에서 유의미한 격차가 유지됐다.

MLPerf v6.0의 구조적 변화로 주목해야 할 점은 오픈 모델(DeepSeek-R1, GPT-OSS-120B, Qwen3-VL)이 공식 벤치마크의 중심 테스트 항목이 됐다는 것이다. 과거에는 Llama, Stable Diffusion 등이 중심이었으나, 이번에 추론 성능이 가장 까다로운 오픈 모델들이 공식화됨으로써 오픈 모델 기반 추론 인프라가 엔터프라이즈 레벨로 성숙했음을 업계가 공인한 셈이다.

Google의 TurboQuant(KV 캐시 6배 압축, ICLR 2026 채택)와 결합할 경우 동일 GPU 메모리에서 처리 가능한 컨텍스트 길이나 배치 크기가 추가로 확장될 수 있어 하드웨어-소프트웨어 공동 최적화의 중요성이 더욱 부각된다.

의미

Blackwell Ultra의 6개월 만에 최대 2.77배 처리량 향상은 NVIDIA의 "Extreme Co-Design(하드웨어-소프트웨어 공동 설계)" 전략이 실제로 작동하고 있음을 증명한다. 단순 GPU 코어 증가가 아닌, HBM3e 메모리 대역폭, NVLink 인터커넥트, CUDA 런타임 스케줄러의 통합 최적화가 만들어낸 성능이다.

AI 인프라 팀에 실질적 의미는 세 가지다:

TCO 재산정 필요: Hopper(H100) 기반 시스템을 2026년 하반기 갱신 주기에 포함하는 기업이라면, Blackwell Ultra 기반의 token/watt 효율을 기준으로 TCO를 재산정해야 한다.
오픈 모델 운영 경제학 변화: DeepSeek-R1, GPT-OSS-120B를 직접 운영하는 조직에게 초당 249만 토큰이라는 처리량은 비용-성능 방정식을 근본적으로 바꾼다.
생태계 집중도 리스크: 14개 파트너사가 모두 NVIDIA 플랫폼 위에서 제출한 것은 AI 인프라의 NVIDIA 의존도가 심화되고 있음을 공식화한다. 멀티 벤더 전략을 유지하려는 기업에게는 AMD나 커스텀 ASIC 검토의 필요성이 더 커진다.

Feature Article

NVIDIA Blackwell Ultra, MLPerf Inference v6.0 신기록 — 288 GPU로 DeepSeek-R1 초당 249만 토큰 처리

배경 및 맥락

핵심 내용

최고 성능 시스템: GB300 NVL72 4시스템 (총 288개 Blackwell Ultra GPU — MLPerf 역대 최대 GPU 구성)

벤치마크	성능 결과	전 세대 대비 향상
DeepSeek-R1 오프라인 처리량	2,490,000 tokens/sec	2.77배
GPT-OSS-120B 오프라인	1,050,000 tokens/sec	—
Llama 3.1 405B 오프라인	—	1.21배
Qwen3-VL-235B-A22B	79 samples/sec	신규 항목
WAN-2.2-T2V-A14B (텍스트-투-비디오)	21초 레이턴시	신규 항목

신규 추가 벤치마크 (v6.0):

Qwen3-VL-235B-A22B: 비전-언어 MoE 모델
GPT-OSS-120B: OpenAI의 첫 오픈웨이트 모델 추론
WAN-2.2-T2V-A14B: 텍스트-투-비디오 생성
DLRMv3: 트랜스포머 기반 추천 시스템

에코시스템 지표: 14개 파트너사 제출 (NVIDIA 플랫폼 위) — MLPerf 역대 단일 플랫폼 최대 파트너 참여

누적 기록: NVIDIA MLPerf 누적 1위 291회 (타 제출자 전체 합산의 9배)

경쟁 구도 / 비교

이번 벤치마크에서 AMD(Instinct MI350X), Intel(Gaudi 3), Qualcomm, Google TPU 등도 제출했으나, NVIDIA Blackwell Ultra 대비 전체 처리량에서 유의미한 격차가 유지됐다.

의미

AI 인프라 팀에 실질적 의미는 세 가지다:

TCO 재산정 필요: Hopper(H100) 기반 시스템을 2026년 하반기 갱신 주기에 포함하는 기업이라면, Blackwell Ultra 기반의 token/watt 효율을 기준으로 TCO를 재산정해야 한다.
오픈 모델 운영 경제학 변화: DeepSeek-R1, GPT-OSS-120B를 직접 운영하는 조직에게 초당 249만 토큰이라는 처리량은 비용-성능 방정식을 근본적으로 바꾼다.
생태계 집중도 리스크: 14개 파트너사가 모두 NVIDIA 플랫폼 위에서 제출한 것은 AI 인프라의 NVIDIA 의존도가 심화되고 있음을 공식화한다. 멀티 벤더 전략을 유지하려는 기업에게는 AMD나 커스텀 ASIC 검토의 필요성이 더 커진다.

NVIDIA Blackwell Ultra, MLPerf Inference v6.0 신기록 — 288 GPU로 DeepSeek-R1 초당 249만 토큰 처리

배경 및 맥락

핵심 내용

경쟁 구도 / 비교

의미

관련 글

최신 글 재진입

NVIDIA Blackwell Ultra, MLPerf Inference v6.0 신기록 — 288 GPU로 DeepSeek-R1 초당 249만 토큰 처리

배경 및 맥락

핵심 내용

경쟁 구도 / 비교

의미

관련 글

최신 글 재진입