배경 및 맥락
NVIDIA는 GPU 판매 수익에만 의존하지 않고 AI 시대에 AI 소프트웨어 스택 전반을 잡으려는 전략에 잇다. Nemotron 시리즈는 이 전략의 일환으로, 개발자들이 NVIDIA GPU 환경 위에서 최적화된 오픈소스 모델을 사용하도록 유도하는 것이 목표다. Nemotron 3 Super는 에이전튱 워크로드에 특화된 첫 번째 모델로, 기존 Nemotron Super 독보 5배 이상의 처리량을 달성하며 업계 기준선을 다시 썼다.
핵심 내용
아키텍처:
- 전체 1,200억 파라미터, 활성 파라미터 120억
- Hybrid Mamba-Transformer MoE: Mamba-2 레이어(시퀀스 연산 효율화) + Transformer 레이어(정밀 추론) 혼합
- LatentMoE 구조로 메모리·컴퓨팅 효율 4배 향상
- Multi-Token Prediction (MTP) 레이어로 바른 텍스트 생성 및 품질 개선
- 네이티브 1M 컨텍스트 으로 에이전트의 장기 메모리 지원
- NVFP4 사전 훈련으로 Blackwell B200에서 H100 FP8 대비 4배 빨라진 추론
벤치마크 성능:
| 벤치마크 | Nemotron 3 Super | 동급 최고 오픈모델 |
|---|---|---|
| SWE-Bench Verified | 60.47% | 업계 SOTA |
| PinchBench (AI 에이전트) | 85.6% | 동급 1위 |
| RULER 1M (1M 컨텍스트) | 91.75% | 동급 1위 |
| 추론 처리량 (vs Qwen3.5-122B) | 7.5배 | - |
훈련 상세:
- 21가지 강화학습(RL) 환경 구성 (NVIDIA NeMo Gym + NeMo RL)
- 120만 회 이상의 환경 롤아웃으로 훈련
경쟁 구도 / 비교
| 모델 | 총 파라미터 | 활성 파라미터 | SWE-Bench | 오픈소스 |
|---|---|---|---|---|
| Nemotron 3 Super | 120B | 12B | 60.47% | 예 |
| Qwen3.5-122B | 122B | ~22B | ~55% | 예 |
| GPT-OSS-120B | 120B | ~20B | 유사 | 예 |
| Claude Sonnet 4.6 | 비공개 | 비공개 | ~65%+ | 아니오 |
의미
NVIDIA는 이번 모델을 통해 두 가지 기회를 동시에 잡는다. 첫째, Blackwell GPU에 최적화된 NVFP4 훈련으로 H100→B200 마이그레이션을 유도한다. 둘째, 5위~10위 성능의 오픈소스 모델을 제공함으로써 엔터프라이즈가 서드파티 API 의존도 없이 자체 인프라에서 에이전튱 AI를 운용하도록 하는 노다. DGX Spark 같은 개인용 슈퍼컴퓨터에서도 구동된다는 점은 개별 개발자나 중소기업 수준에서도 엔터프라이즈에 준하는 에이전트 시스템을 로컈로 배포할 수 있는 진입 장벽이 낙아지고 있음을 의미한다.