Feature Article
NVIDIA Nemotron 3 Super — 120B MoE 오픈소스 에이전트 모델, SWE-Bench 60.5% 달성
📌 핵심 요약 NVIDIA가 에이전트 워크로드 특화 오픈소스 모델 Nemotron 3 Super를 공개했다. Mamba-Transformer 하이브리드 MoE 아키텍처로 원래 1,200억 파라미터에서 활성 파라미터 120억만 사용, SWE-Bench Verified 60.47% 및 PinchBench 85.6%로 동급 오픈소스 최고 성능을 기록했다. 🔍 왜 주목해야 하나 Nemotron 3 Super는 단순한 스키 마스탄 모델이 아니라 NVIDIA Blackwell GPU(NVFP4), NeMo 추론 스택, NIM과 수직 통합된 레퍼런스 아키텍처다. Qwen3.5-122B 대비 7.5배의 추론 처리량은 배포 환경에서의 실질적인 TCO 우위를 의미하며, 21가지 강화학습 환경에서의 사후 훈련은 에이전틱 워크로드에 특화됨을 담보한다. 1M 컨텍스트 창과 NVIDIA DGX Spark에서의 로컈 실행 가능성은 온프레미스 배포 시나리오에서의 진지한 대안이 될 수 있다. ⚡ 실무 시사점 오픈소스 에이전트 백본을 검토 중인 팀에게 Nemotron 3 Super는 비용과 성능 양쪽에서 실질적인 선택지다. NVIDIA NIM을 통한 클라운드 API 제공도 지원되므로, 엔터프라이즈 AI 에이전트 파일넷 프로젝트의 후보로 즉시 평가할 것을 권한다.
배경 및 맥락
NVIDIA는 GPU 판매 수익에만 의존하지 않고 AI 시대에 AI 소프트웨어 스택 전반을 잡으려는 전략에 잇다. Nemotron 시리즈는 이 전략의 일환으로, 개발자들이 NVIDIA GPU 환경 위에서 최적화된 오픈소스 모델을 사용하도록 유도하는 것이 목표다. Nemotron 3 Super는 에이전튱 워크로드에 특화된 첫 번째 모델로, 기존 Nemotron Super 독보 5배 이상의 처리량을 달성하며 업계 기준선을 다시 썼다.
핵심 내용
아키텍처:
- 전체 1,200억 파라미터, 활성 파라미터 120억
- Hybrid Mamba-Transformer MoE: Mamba-2 레이어(시퀀스 연산 효율화) + Transformer 레이어(정밀 추론) 혼합
- LatentMoE 구조로 메모리·컴퓨팅 효율 4배 향상
- Multi-Token Prediction (MTP) 레이어로 바른 텍스트 생성 및 품질 개선
- 네이티브 1M 컨텍스트 으로 에이전트의 장기 메모리 지원
- NVFP4 사전 훈련으로 Blackwell B200에서 H100 FP8 대비 4배 빨라진 추론
벤치마크 성능:
| 벤치마크 | Nemotron 3 Super | 동급 최고 오픈모델 |
|---|---|---|
| SWE-Bench Verified | 60.47% | 업계 SOTA |
| PinchBench (AI 에이전트) | 85.6% | 동급 1위 |
| RULER 1M (1M 컨텍스트) | 91.75% | 동급 1위 |
| 추론 처리량 (vs Qwen3.5-122B) | 7.5배 | - |
훈련 상세:
- 21가지 강화학습(RL) 환경 구성 (NVIDIA NeMo Gym + NeMo RL)
- 120만 회 이상의 환경 롤아웃으로 훈련
경쟁 구도 / 비교
| 모델 | 총 파라미터 | 활성 파라미터 | SWE-Bench | 오픈소스 |
|---|---|---|---|---|
| Nemotron 3 Super | 120B | 12B | 60.47% | 예 |
| Qwen3.5-122B | 122B | ~22B | ~55% | 예 |
| GPT-OSS-120B | 120B | ~20B | 유사 | 예 |
| Claude Sonnet 4.6 | 비공개 | 비공개 | ~65%+ | 아니오 |
의미
NVIDIA는 이번 모델을 통해 두 가지 기회를 동시에 잡는다. 첫째, Blackwell GPU에 최적화된 NVFP4 훈련으로 H100→B200 마이그레이션을 유도한다. 둘째, 5위~10위 성능의 오픈소스 모델을 제공함으로써 엔터프라이즈가 서드파티 API 의존도 없이 자체 인프라에서 에이전튱 AI를 운용하도록 하는 노다. DGX Spark 같은 개인용 슈퍼컴퓨터에서도 구동된다는 점은 개별 개발자나 중소기업 수준에서도 엔터프라이즈에 준하는 에이전트 시스템을 로컈로 배포할 수 있는 진입 장벽이 낙아지고 있음을 의미한다.