PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 4월 3일

NVIDIA Blackwell Ultra, MLPerf Inference v6.0 신기록 — 288 GPU로 DeepSeek-R1 초당 249만 토큰 처리

NVIDIA Blackwell Ultra(GB300 NVL72 4시스템, 총 288 GPU)가 MLPerf Inference v6.0에서 DeepSeek-R1 오프라인 처리량 기준 초당 249만 토큰을 기록하며 6개월 전 대비 최대 2.77배 향상된 성능으로 전 카테고리를 석권했다. 이번 벤치마크에 Qwen3-VL-235B, GPT-OSS-120B, 텍스트-투-비디오(WAN-2.2) 등…

본문 읽기원문 보기

발행일

2026년 4월 3일

업데이트

2026년 4월 3일

주제

트렌드
AI
산업
모델
원문 보기

배경 및 맥락

MLPerf(Machine Learning Performance)는 MLCommons가 주관하는 AI 하드웨어 및 소프트웨어 성능의 표준 벤치마크로, 업계 전반의 HW/SW 스택 비교를 위한 사실상의 공인 지표다. 2026년 4월 1~2일 공개된 MLPerf Inference v6.0은 이전 버전 대비 4개의 새로운 벤치마크 모델을 추가했다.

NVIDIA는 2018년 MLPerf 개시 이후 누적 291번의 1위를 기록했으며, 이는 다른 모든 제출자의 합산 수치의 9배에 달한다. 이번 v6.0은 H100 기반 Hopper 세대에서 Blackwell Ultra(B200/GB300) 세대로의 전환을 처음으로 대규모 공인 벤치마크로 검증하는 자리였다.


핵심 내용

최고 성능 시스템: GB300 NVL72 4시스템 (총 288개 Blackwell Ultra GPU — MLPerf 역대 최대 GPU 구성)

벤치마크성능 결과전 세대 대비 향상
DeepSeek-R1 오프라인 처리량2,490,000 tokens/sec2.77배
GPT-OSS-120B 오프라인1,050,000 tokens/sec—
Llama 3.1 405B 오프라인—1.21배
Qwen3-VL-235B-A22B79 samples/sec신규 항목
WAN-2.2-T2V-A14B (텍스트-투-비디오)21초 레이턴시신규 항목

신규 추가 벤치마크 (v6.0):

  • Qwen3-VL-235B-A22B: 비전-언어 MoE 모델
  • GPT-OSS-120B: OpenAI의 첫 오픈웨이트 모델 추론
  • WAN-2.2-T2V-A14B: 텍스트-투-비디오 생성
  • DLRMv3: 트랜스포머 기반 추천 시스템

에코시스템 지표: 14개 파트너사 제출 (NVIDIA 플랫폼 위) — MLPerf 역대 단일 플랫폼 최대 파트너 참여

누적 기록: NVIDIA MLPerf 누적 1위 291회 (타 제출자 전체 합산의 9배)


경쟁 구도 / 비교

이번 벤치마크에서 AMD(Instinct MI350X), Intel(Gaudi 3), Qualcomm, Google TPU 등도 제출했으나, NVIDIA Blackwell Ultra 대비 전체 처리량에서 유의미한 격차가 유지됐다.

MLPerf v6.0의 구조적 변화로 주목해야 할 점은 오픈 모델(DeepSeek-R1, GPT-OSS-120B, Qwen3-VL)이 공식 벤치마크의 중심 테스트 항목이 됐다는 것이다. 과거에는 Llama, Stable Diffusion 등이 중심이었으나, 이번에 추론 성능이 가장 까다로운 오픈 모델들이 공식화됨으로써 오픈 모델 기반 추론 인프라가 엔터프라이즈 레벨로 성숙했음을 업계가 공인한 셈이다.

Google의 TurboQuant(KV 캐시 6배 압축, ICLR 2026 채택)와 결합할 경우 동일 GPU 메모리에서 처리 가능한 컨텍스트 길이나 배치 크기가 추가로 확장될 수 있어 하드웨어-소프트웨어 공동 최적화의 중요성이 더욱 부각된다.


의미

Blackwell Ultra의 6개월 만에 최대 2.77배 처리량 향상은 NVIDIA의 "Extreme Co-Design(하드웨어-소프트웨어 공동 설계)" 전략이 실제로 작동하고 있음을 증명한다. 단순 GPU 코어 증가가 아닌, HBM3e 메모리 대역폭, NVLink 인터커넥트, CUDA 런타임 스케줄러의 통합 최적화가 만들어낸 성능이다.

AI 인프라 팀에 실질적 의미는 세 가지다:

  1. TCO 재산정 필요: Hopper(H100) 기반 시스템을 2026년 하반기 갱신 주기에 포함하는 기업이라면, Blackwell Ultra 기반의 token/watt 효율을 기준으로 TCO를 재산정해야 한다.
  2. 오픈 모델 운영 경제학 변화: DeepSeek-R1, GPT-OSS-120B를 직접 운영하는 조직에게 초당 249만 토큰이라는 처리량은 비용-성능 방정식을 근본적으로 바꾼다.
  3. 생태계 집중도 리스크: 14개 파트너사가 모두 NVIDIA 플랫폼 위에서 제출한 것은 AI 인프라의 NVIDIA 의존도가 심화되고 있음을 공식화한다. 멀티 벤더 전략을 유지하려는 기업에게는 AMD나 커스텀 ASIC 검토의 필요성이 더 커진다.

이어 읽기

관련 읽을거리

전체 보기
2026년 4월 15일Hugging Face State of Open Source Spring 2026 — 오픈 모델 경쟁의 축이 성능에서 주권·배포·파생 생태계로 이동Hugging Face는 2026년 봄 오픈소스 AI 리포트를 통해 2025년 신규 trending model의 다수가 China에서 개발되었거나 China-origin 모델 파생형이었고, Alibaba의 Qwen 계열은 11만 3천 개 이상의 derivative models를 만들었다고 정리했다. 또 1-9B급 모델의 상위군은 100B+ 모델 대비 median 기준 약 4배 높은…2026년 4월 5일PrismML, Bonsai 1-bit LLM 출시 — 1GB 메모리로 8B 추론, 엣지 AI의 현실화PrismML이 4월 3일 스텔스에서 등장해 세계 최초 상업적으로 실행 가능한 1-bit LLM 패밀리 Bonsai를 Apache 2.0으로 공개했다. 플래그십인 Bonsai 8B는 1.15GB 메모리에 구동되며, FP16 8B 모델 대비 14배 소형·8배 빠른 속도·5배 낮은 에너지 소비를 달성하면서 추론 품질은 동급 수준을 유지한다.2026년 3월 31일OpenAI, $1,200억 역대 최대 평더링 완료 — Amazon $500억 주도, 기업가치 $7,300억 돌파OpenAI가 Amazon $500억, Nvidia·SoftBank 각 $300억 등으로 구성된 총 $1,200억 평더링 라운드를 마무리했다. Pre-money 기업가치 $7,300억으로, 2026년 AI 산업 내 최대 단일 투자 이벤트다.2026년 3월 30일Yann LeCun의 AMI Labs, 유럽 역대 최대 시드 $10.3억 조달 — NVIDIA·베이조스 익스피디션 참여튜링상 수상자 Yann LeCun이 설립한 Advanced Machine Intelligence(AMI) Labs가 유럽 역사상 최대 시드 라운드인 $10.3억을 $35억 밸류에이션으로 유치했다. NVIDIA, Bezos Expeditions, Temasek이 참여했다.