NVIDIA Nemotron 3 Super — 120B MoE 오픈소스 에이전트 모델, SWE-Bench 60.5% 달성

NVIDIA가 에이전트 워크로드 특화 오픈소스 모델 Nemotron 3 Super를 공개했다. Mamba-Transformer 하이브리드 MoE 아키텍처로 원래 1,200억 파라미터에서 활성 파라미터 120억만 사용, SWE-Bench Verified 60.47% 및 PinchBench 85.6%로 동급 오픈소스 최고 성능을 기록했다.

배경 및 맥락

NVIDIA는 GPU 판매 수익에만 의존하지 않고 AI 시대에 AI 소프트웨어 스택 전반을 잡으려는 전략에 잇다. Nemotron 시리즈는 이 전략의 일환으로, 개발자들이 NVIDIA GPU 환경 위에서 최적화된 오픈소스 모델을 사용하도록 유도하는 것이 목표다. Nemotron 3 Super는 에이전튱 워크로드에 특화된 첫 번째 모델로, 기존 Nemotron Super 독보 5배 이상의 처리량을 달성하며 업계 기준선을 다시 썼다.

핵심 내용

아키텍처:

전체 1,200억 파라미터, 활성 파라미터 120억
Hybrid Mamba-Transformer MoE: Mamba-2 레이어(시퀀스 연산 효율화) + Transformer 레이어(정밀 추론) 혼합
LatentMoE 구조로 메모리·컴퓨팅 효율 4배 향상
Multi-Token Prediction (MTP) 레이어로 바른 텍스트 생성 및 품질 개선
네이티브 1M 컨텍스트 으로 에이전트의 장기 메모리 지원
NVFP4 사전 훈련으로 Blackwell B200에서 H100 FP8 대비 4배 빨라진 추론

벤치마크 성능:

벤치마크	Nemotron 3 Super	동급 최고 오픈모델
SWE-Bench Verified	60.47%	업계 SOTA
PinchBench (AI 에이전트)	85.6%	동급 1위
RULER 1M (1M 컨텍스트)	91.75%	동급 1위
추론 처리량 (vs Qwen3.5-122B)	7.5배	-

훈련 상세:

21가지 강화학습(RL) 환경 구성 (NVIDIA NeMo Gym + NeMo RL)
120만 회 이상의 환경 롤아웃으로 훈련

경쟁 구도 / 비교

모델	총 파라미터	활성 파라미터	SWE-Bench	오픈소스
Nemotron 3 Super	120B	12B	60.47%	예
Qwen3.5-122B	122B	~22B	~55%	예
GPT-OSS-120B	120B	~20B	유사	예
Claude Sonnet 4.6	비공개	비공개	~65%+	아니오

의미

NVIDIA는 이번 모델을 통해 두 가지 기회를 동시에 잡는다. 첫째, Blackwell GPU에 최적화된 NVFP4 훈련으로 H100→B200 마이그레이션을 유도한다. 둘째, 5위~10위 성능의 오픈소스 모델을 제공함으로써 엔터프라이즈가 서드파티 API 의존도 없이 자체 인프라에서 에이전튱 AI를 운용하도록 하는 노다. DGX Spark 같은 개인용 슈퍼컴퓨터에서도 구동된다는 점은 개별 개발자나 중소기업 수준에서도 엔터프라이즈에 준하는 에이전트 시스템을 로컈로 배포할 수 있는 진입 장벽이 낙아지고 있음을 의미한다.

배경 및 맥락

핵심 내용

아키텍처:

전체 1,200억 파라미터, 활성 파라미터 120억
Hybrid Mamba-Transformer MoE: Mamba-2 레이어(시퀀스 연산 효율화) + Transformer 레이어(정밀 추론) 혼합
LatentMoE 구조로 메모리·컴퓨팅 효율 4배 향상
Multi-Token Prediction (MTP) 레이어로 바른 텍스트 생성 및 품질 개선
네이티브 1M 컨텍스트 으로 에이전트의 장기 메모리 지원
NVFP4 사전 훈련으로 Blackwell B200에서 H100 FP8 대비 4배 빨라진 추론

벤치마크 성능:

벤치마크	Nemotron 3 Super	동급 최고 오픈모델
SWE-Bench Verified	60.47%	업계 SOTA
PinchBench (AI 에이전트)	85.6%	동급 1위
RULER 1M (1M 컨텍스트)	91.75%	동급 1위
추론 처리량 (vs Qwen3.5-122B)	7.5배	-

훈련 상세:

21가지 강화학습(RL) 환경 구성 (NVIDIA NeMo Gym + NeMo RL)
120만 회 이상의 환경 롤아웃으로 훈련

경쟁 구도 / 비교

모델	총 파라미터	활성 파라미터	SWE-Bench	오픈소스
Nemotron 3 Super	120B	12B	60.47%	예
Qwen3.5-122B	122B	~22B	~55%	예
GPT-OSS-120B	120B	~20B	유사	예
Claude Sonnet 4.6	비공개	비공개	~65%+	아니오

NVIDIA Nemotron 3 Super — 120B MoE 오픈소스 에이전트 모델, SWE-Bench 60.5% 달성

배경 및 맥락

핵심 내용

경쟁 구도 / 비교

의미

관련 읽을거리

NVIDIA Nemotron 3 Super — 120B MoE 오픈소스 에이전트 모델, SWE-Bench 60.5% 달성

배경 및 맥락

핵심 내용

경쟁 구도 / 비교

의미

관련 읽을거리