PickleeAI와 개발에 대한 짧은 노트
홈아티클아카이브검색

끝까지 읽는 글

AI와 개발에 관한 변화 중에서 블로그처럼 오래 읽을 수 있는 글만 골라 정리합니다.

© 2026 Picklee

RSSSitemap

글

2026년 3월 31일수정 2026년 3월 31일원문

NVIDIA Nemotron 3 Super — 120B Mamba-Transformer MoE 오픈 에이전트 모델, 이전 대비 5배 처리량

NVIDIA가 에이전트 AI 특화 오픈 모델 Nemotron 3 패밀리를 출시했다. 플래그십인 Nemotron 3 Super는 120B 파라미터(활성 12B)의 Mamba-Transformer MoE 하이브리드 아키텍처를 채택해 Nemotron 2 대비 5배 처리량을 달성하고 1M 토큰 컨텍스트 윈도우를 지원한다. 🔍 왜 주목해야 하나 에이전트 AI 시스템에서 모델 선택의 핵심 기준은…

AI
모델
오픈소스
트렌드
API

배경 및 맥락

2026년 에이전트 AI는 단순 쳇봇을 넘어 멀티스텝 작업을 자율 수행하는 시스템으로 진화하고 있다. 이런 시스템에서는 긴 작업 컨텍스트를 유지하면서 높은 처리량을 보장해야 하는데, 기존 밀집(dense) Transformer 모델은 이 두 가지를 동시에 만족하기 어렵다.

NVIDIA는 자사의 강력한 GPU 인프라와 결합한 오픈 모델 전략으로 에이전트 AI 생태계에서 주도권을 확보하려 한다. Nemotron 3는 GTC 2026에서 공개된 핵심 모델 패밀리로, 아키텍처 수준에서 에이전트 워크로드에 최적화됐다.


핵심 내용

Nemotron 3 패밀리:

모델파라미터활성 파라미터특징
Nemotron 3 Nano4B4B로컬 에이전트, 스마트폰/PC
Nemotron 3 Super120B12B플래그십, 프로덕션 에이전트
Nemotron 3 UltraTBDTBD2026 상반기 출시 예정

Nemotron 3 Super 주요 스펙:

  • 아키텍처: Hybrid Mamba-Transformer MoE
  • 컨텍스트 윈도우: 1M 토큰
  • 처리량: Nemotron 2 대비 5배 향상
  • Nano 4B: Nemotron 2 Nano 대비 4배 처리량

Mamba 아키텍처의 의미:

Mamba는 State Space Model(SSM) 기반으로, 긴 시퀀스에서 선형(O(n)) 복잡도를 달성한다. 기존 Transformer의 이차(O(n^2)) 어텐션 복잡도 대비 긴 컨텍스트 처리에서 메모리와 계산량 모두 효율적이다.

접근 경로: build.nvidia.com, Perplexity, OpenRouter, HuggingFace


경쟁 구도 / 비교

에이전트 AI용 오픈 모델 경쟁 구도:

  • Meta Llama 4: 멀티모달 강점, 광범위한 커뮤니티
  • Mistral Large 3: 41B 활성 파라미터, 유럽 오픈소스 생태계
  • Nemotron 3 Super: NVIDIA 인프라 최적화, 에이전트 처리량 특화

NVIDIA가 모델 제공을 넘어 학습 데이터셋, RL 환경, 에이전트 라이브러리까지 함께 공개한 점은 Meta의 Llama 접근과 유사한 생태계 전략이다.


의미

NVIDIA는 GPU 하드웨어 판매를 넘어 소프트웨어 레이어(CUDA → NeMo → Nemotron)까지 에이전트 AI 스택을 수직 통합하고 있다. Nemotron 3가 확산되면 NVIDIA 인프라에 대한 고객 잠금(lock-in)이 강화되는 구조다. 동시에 오픈 가중치 공개는 연구 커뮤니티와 스타트업의 생태계 참여를 촉진해 장기적 플랫폼 지배력을 높이는 전략이기도 하다.

더 읽기

같이 읽어볼 만한 글

전체 글 보기
2026년 4월 5일

Google Gemma 4 공개 — Apache 2.0·256K 컨텍스트·멀티모달, 오픈 에이전틱 모델의 새 기준

Google이 4월 2~3일 Gemma 4를 Apache 2.0 라이선스로 공개했다. Effective 2B·4B·26B MoE·31B Dense 네 가지 크기로 제공되며, 256K 토큰 컨텍스트, 비전·오디오 네이티브 멀티모달, 140개 이상 언어를 지원한다. 🔍 왜 주목해야 하나 Gemma 4는 Gemini 3와 동일한 연구 기반으로 제작됐으면서 상업 제한 없는 Apache 2.0으로…

2026년 4월 3일

Arcee Trinity-Large-Thinking 출시 — 미국계 오픈 에이전트 모델이 가격 대비 frontier 경쟁력 제시

Arcee AI가 2026년 4월 1일 Trinity-Large-Thinking을 공개했다. Apache 2.0 오픈웨이트 reasoning 모델로, long-horizon agent와 multi-turn tool calling에 초점을 맞췄고 PinchBench에서 Opus 4.6 바로 아래 2위를 기록했다고 밝혔다. 🔍 왜 주목해야 하나 이 모델의 의미는 단순히 또 하나의 오픈 모델이…

2026년 4월 3일

Gemma 4 공개 — Apache 2.0 오픈 모델을 agentic workflow 중심으로 재정의

Google DeepMind가 2026년 4월 2일 Gemma 4를 공개했다. E2B, E4B, 26B MoE, 31B Dense 네 가지 크기로 출시됐고, Apache 2.0 라이선스 아래 reasoning, function calling, JSON output, vision/audio 입력까지 지원한다. 🔍 왜 주목해야 하나 Gemma 4의 포인트는 작은 오픈 모델을 단순 경량 대안이…

2026년 4월 1일

NVIDIA Nemotron 3 Super — 120B MoE 오픈소스 에이전트 모델, SWE-Bench 60.5% 달성

NVIDIA가 에이전트 워크로드 특화 오픈소스 모델 Nemotron 3 Super를 공개했다. Mamba-Transformer 하이브리드 MoE 아키텍처로 원래 1,200억 파라미터에서 활성 파라미터 120억만 사용, SWE-Bench Verified 60.47% 및 PinchBench 85.6%로 동급 오픈소스 최고 성능을 기록했다. 🔍 왜 주목해야 하나 Nemotron 3 Super는…