PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 4월 1일

NVIDIA Nemotron 3 Super — 120B MoE 오픈소스 에이전트 모델, SWE-Bench 60.5% 달성

NVIDIA가 에이전트 워크로드 특화 오픈소스 모델 Nemotron 3 Super를 공개했다. Mamba-Transformer 하이브리드 MoE 아키텍처로 원래 1,200억 파라미터에서 활성 파라미터 120억만 사용, SWE-Bench Verified 60.47% 및 PinchBench 85.6%로 동급 오픈소스 최고 성능을 기록했다.

본문 읽기원문 보기

발행일

2026년 4월 1일

업데이트

2026년 4월 1일

주제

트렌드
오픈소스
AI
모델
API
원문 보기

배경 및 맥락

NVIDIA는 GPU 판매 수익에만 의존하지 않고 AI 시대에 AI 소프트웨어 스택 전반을 잡으려는 전략에 잇다. Nemotron 시리즈는 이 전략의 일환으로, 개발자들이 NVIDIA GPU 환경 위에서 최적화된 오픈소스 모델을 사용하도록 유도하는 것이 목표다. Nemotron 3 Super는 에이전튱 워크로드에 특화된 첫 번째 모델로, 기존 Nemotron Super 독보 5배 이상의 처리량을 달성하며 업계 기준선을 다시 썼다.


핵심 내용

아키텍처:

  • 전체 1,200억 파라미터, 활성 파라미터 120억
  • Hybrid Mamba-Transformer MoE: Mamba-2 레이어(시퀀스 연산 효율화) + Transformer 레이어(정밀 추론) 혼합
  • LatentMoE 구조로 메모리·컴퓨팅 효율 4배 향상
  • Multi-Token Prediction (MTP) 레이어로 바른 텍스트 생성 및 품질 개선
  • 네이티브 1M 컨텍스트 으로 에이전트의 장기 메모리 지원
  • NVFP4 사전 훈련으로 Blackwell B200에서 H100 FP8 대비 4배 빨라진 추론

벤치마크 성능:

벤치마크Nemotron 3 Super동급 최고 오픈모델
SWE-Bench Verified60.47%업계 SOTA
PinchBench (AI 에이전트)85.6%동급 1위
RULER 1M (1M 컨텍스트)91.75%동급 1위
추론 처리량 (vs Qwen3.5-122B)7.5배-

훈련 상세:

  • 21가지 강화학습(RL) 환경 구성 (NVIDIA NeMo Gym + NeMo RL)
  • 120만 회 이상의 환경 롤아웃으로 훈련

경쟁 구도 / 비교

모델총 파라미터활성 파라미터SWE-Bench오픈소스
Nemotron 3 Super120B12B60.47%예
Qwen3.5-122B122B~22B~55%예
GPT-OSS-120B120B~20B유사예
Claude Sonnet 4.6비공개비공개~65%+아니오

의미

NVIDIA는 이번 모델을 통해 두 가지 기회를 동시에 잡는다. 첫째, Blackwell GPU에 최적화된 NVFP4 훈련으로 H100→B200 마이그레이션을 유도한다. 둘째, 5위~10위 성능의 오픈소스 모델을 제공함으로써 엔터프라이즈가 서드파티 API 의존도 없이 자체 인프라에서 에이전튱 AI를 운용하도록 하는 노다. DGX Spark 같은 개인용 슈퍼컴퓨터에서도 구동된다는 점은 개별 개발자나 중소기업 수준에서도 엔터프라이즈에 준하는 에이전트 시스템을 로컈로 배포할 수 있는 진입 장벽이 낙아지고 있음을 의미한다.

이어 읽기

관련 읽을거리

전체 보기
2026년 4월 5일Google Gemma 4 공개 — Apache 2.0·256K 컨텍스트·멀티모달, 오픈 에이전틱 모델의 새 기준Google이 4월 2~3일 Gemma 4를 Apache 2.0 라이선스로 공개했다. Effective 2B·4B·26B MoE·31B Dense 네 가지 크기로 제공되며, 256K 토큰 컨텍스트, 비전·오디오 네이티브 멀티모달, 140개 이상 언어를 지원한다.2026년 4월 3일Arcee Trinity-Large-Thinking 출시 — 미국계 오픈 에이전트 모델이 가격 대비 frontier 경쟁력 제시Arcee AI가 2026년 4월 1일 Trinity-Large-Thinking을 공개했다. Apache 2.0 오픈웨이트 reasoning 모델로, long-horizon agent와 multi-turn tool calling에 초점을 맞췄고 PinchBench에서 Opus 4.6 바로 아래 2위를 기록했다고 밝혔다.2026년 4월 3일Gemma 4 공개 — Apache 2.0 오픈 모델을 agentic workflow 중심으로 재정의Google DeepMind가 2026년 4월 2일 Gemma 4를 공개했다. E2B, E4B, 26B MoE, 31B Dense 네 가지 크기로 출시됐고, Apache 2.0 라이선스 아래 reasoning, function calling, JSON output, vision/audio 입력까지 지원한다.2026년 4월 1일OpenAI, 최초 오픈웨이트 모델 gpt-oss-120b 공개 — Apache 2.0, o4-mini 수준 추론 성능OpenAI가 처음으로 오픈웨이트 모델인 gpt-oss-120b(117B 파라미터, MoE)와 gpt-oss-20b를 Apache 2.0 라이선스로 공개했다. 단일 80GB GPU에서 실행 가능하며, 코딩·수학·툴 사용에서 o4-mini와 동등하거나 일부 초과한다.