PickleeAI와 개발에 대한 짧은 노트
홈아티클아카이브검색

끝까지 읽는 글

AI와 개발에 관한 변화 중에서 블로그처럼 오래 읽을 수 있는 글만 골라 정리합니다.

© 2026 Picklee

RSSSitemap

글

2026년 5월 2일수정 2026년 5월 2일원문

NVIDIA Nemotron 3 Nano Omni — multimodal agent 스택이 모델 조합에서 단일 perception sub-agent로 수렴

NVIDIA는 2026년 4월 28일 vision·audio·video·text를 한 모델에서 처리하는 오픈 multimodal reasoning model Nemotron 3 Nano Omni를 발표했다. 이 모델은 30B-A3B hybrid MoE, 256K context를 기반으로 document intelligence·video/audio understanding…

AI
오픈소스
모델
에이전트

배경 및 맥락

멀티모달 에이전트는 겉으로 보기에는 하나의 지능처럼 보이지만, 실제 구현은 종종 이미지 모델, 음성 모델, 텍스트 모델, OCR 또는 문서 파서가 따로 연결된 파이프라인이다. 이 구조는 유연하지만, 각 단계 사이에서 지연 시간과 컨텍스트 손실이 생기고 orchestration이 복잡해진다. 특히 computer use나 document intelligence처럼 화면, 문서, 음성, 텍스트가 동시에 섞이는 워크로드에서는 perception 계층이 전체 agent의 병목이 되기 쉽다.

NVIDIA의 Nemotron 3 Nano Omni는 바로 이 지점을 겨냥한다. planner를 더 크게 만드는 대신, 에이전트의 'eyes and ears' 역할을 하는 멀티모달 perception sub-agent를 하나의 오픈 모델로 표준화하려는 접근이다.


핵심 내용

공식 발표에 따르면 Nemotron 3 Nano Omni는 text, image, audio, video, documents, charts, graphical interfaces를 입력으로 받고 text를 출력하는 open omni-modal reasoning model이다. 아키텍처는 30B-A3B hybrid MoE와 Conv3D, EVS, 256K context를 사용하며, complex document intelligence와 video/audio understanding 관련 6개 leaderboard에서 선도 성능을 기록했다고 NVIDIA는 설명했다.

성능 포지셔닝도 분명하다. NVIDIA는 이 모델이 같은 수준의 interactivity를 제공하는 다른 open omni models 대비 최대 9배 높은 throughput을 제공한다고 주장한다. 또한 Hugging Face, OpenRouter, build.nvidia.com, 25개 이상 파트너 플랫폼에서 즉시 배포 가능하다고 밝혔다.


경쟁 구도 / 비교

최근 오픈 모델 경쟁은 주로 더 강한 text reasoning이나 coding benchmark 중심으로 전개돼 왔다. 하지만 실제 agent product는 화면 읽기, 문서 해석, 음성/영상 입력 처리 같은 perception 문제를 동시에 풀어야 한다. Nemotron 3 Nano Omni는 이 레이어를 별도 특화 모델로 잡아, Nemotron 3 Super/Ultra 같은 planner급 모델 또는 proprietary model과 조합되는 구조를 제안한다.

이는 '하나의 거대 모델이 모든 것을 처리한다'는 방향과 다르다. 오히려 에이전트 시스템을 planner, perception, runtime으로 분리하는 모듈형 설계가 다시 부상하고 있음을 시사한다.


의미

산업적으로는 에이전트 스택이 범용 LLM 단일 계층에서 역할별 전문 모델 계층으로 세분화되고 있다는 신호다. 특히 멀티모달 agent가 보편화될수록 latency, throughput, orchestration cost가 benchmark score만큼 중요한 구매 기준이 될 가능성이 높다.

실무적으로는 제품팀이 멀티모달 기능을 추가할 때 OCR, ASR, vision, document parsing을 따로 붙이는 현재 구조가 얼마나 비싸고 복잡한지 다시 점검해야 한다. perception 전용 sub-agent를 두면 비용과 응답성을 동시에 개선할 여지가 크다.

더 읽기

같이 읽어볼 만한 글

전체 글 보기
2026년 4월 30일

Qwen3.6 — 오픈 코딩 모델 경쟁이 벤치마크보다 저장된 추론과 레포 단위 작업 완성도로 이동

Qwen 팀은 2026년 4월 Qwen3.6 시리즈를 공개하며 35B-A3B와 27B 모델을 순차 배포했다. 공식 저장소 기준으로 이번 릴리스는 agentic coding, front-end workflow, repository-level reasoning 강화와 함께 conversation history 전반에 thinking context를 유지하는 Thinking…

2026년 5월 1일

Warp is now open-source — ADE 경쟁이 제품 기능에서 오픈 에이전트 운영체제로 확장

Warp는 2026년 4월 28일 Warp client를 AGPL로 오픈소스화하고, Oz 기반 agent-first 기여 워크플로를 공개했다. 동시에 Kimi·MiniMax·Qwen 지원 확대, auto (open) 모델 라우팅, 설정 파일 추가로 IDE/ADE를 더 개방형 표면으로 재구성했다. 🔍 왜 주목해야 하나 이 발표의 핵심은 오픈소스화 자체보다도 "agent가 구현을 맡고,…

2026년 4월 25일

Mistral 3 — 오픈 모델 경쟁이 단일 플래그십에서 full-stack open portfolio 전략으로 이동

Mistral AI는 최근 Mistral 3를 공개하며 675B total / 41B active의 Mistral Large 3와 3B·8B·14B 규모의 Ministral 3 시리즈를 함께 내놨다. 전 모델을 Apache 2.0으로 공개하고, Large 3는 8×A100 또는 8×H100 단일 노드 배포 경로, 소형 모델은 edge·robotics 환경까지 겨냥하며 배포 범위를 넓혔다.…

2026년 4월 21일

Agent Governance Toolkit — 에이전트 보안이 사후 감사에서 runtime kernel 계층으로 이동

Microsoft는 2026년 4월 2일 Agent Governance Toolkit을 MIT 라이선스로 공개했다. 이 오픈소스 프로젝트는 OWASP Agentic AI Top 10의 10개 위험군을 모두 다루는 runtime governance stack을 목표로 하며, Agent OS·Mesh·Runtime·SRE·Compliance·Marketplace·Lightning의 7개…