NVIDIA extreme co-design — agent 인프라 경쟁이 모델 FLOPs보다 token economics 최적화로 이동

NVIDIA는 2026년 5월 5일 agentic workload의 토큰 경제성을 분석하며, Claude Code 세션 예시에서 33분 동안 283개 inference request, 225개 sub-agent invocation, 15K→156K token context 성장 후 20K로 compaction 되는 패턴을 공개했다. 회사는 이를 해결하기 위해 Vera Rubin NVL72,…

에이전트

산업

트렌드

배경 및 맥락

에이전트가 실제 업무를 맡기 시작하면서 추론 비용 구조가 일반 챗봇과 완전히 달라졌다. 하나의 질문에 하나의 답을 주는 linear chat과 달리, 에이전트는 도구를 호출하고 서브에이전트를 띄우고 파일을 다시 읽으며 컨텍스트를 계속 키운다. 그래서 병목은 단순 모델 성능이 아니라, 누적 토큰 처리량과 긴 컨텍스트를 얼마나 경제적으로 유지하느냐로 이동한다.

NVIDIA의 이번 글은 이 변화를 인프라 관점에서 해부한다. 특히 실제 Claude Code 세션을 예로 들며, agent workload가 왜 기존 serving economics를 깨는지를 구체적으로 설명한다는 점이 중요하다.

핵심 내용

NVIDIA는 2026년 5월 5일 게시한 기술 글에서 33분짜리 agentic coding session을 분석했다. 이 세션은 58개 main-agent turn과 225개 sub-agent invocation을 포함해 총 283개 inference request를 발생시켰고, context window는 15K token에서 156K까지 커진 뒤 compaction으로 약 20K까지 줄었다. 또한 coding agent는 95~98% cache hit rate를 유지할 수 있으며, cache reuse가 없으면 입력 처리 비용이 대략 6배 높아질 수 있다고 설명했다.

NVIDIA는 이를 감당하려면 단일 칩이 아니라 전체 플랫폼 수준의 extreme co-design이 필요하다고 주장한다. 제안된 스택은 Vera Rubin NVL72, Vera CPU, Groq 3 LPX, NVLink 6, ConnectX-9, BlueField-4, Spectrum-X와 함께 Dynamo, NVFP4, TRT-LLM WideEP, speculative decoding을 결합하며, 최대 400k context를 가진 trillion-parameter MoE에서 사용자당 400+ tokens/sec를 목표로 한다.

경쟁 구도 / 비교

기존 AI 인프라 논의는 더 큰 GPU와 더 높은 FLOPs 중심이었다. 하지만 agent workload에서는 tool latency, cache locality, context compaction, low-jitter token generation 같은 요소가 같은 수준으로 중요하다. 즉, 문제는 모델 하나를 빨리 돌리는 것이 아니라 다단계 agent session 전체를 경제적으로 유지하는 것이다.

이 점에서 NVIDIA의 메시지는 분명하다. 앞으로 agent 인프라 경쟁은 모델 벤치마크보다 token economics orchestration에 가까워진다. 이는 클라우드, 칩, inference runtime, developer platform 사이의 경계를 더 빠르게 허물 가능성이 있다.

의미

산업적으로는 agent 시대의 승부처가 모델 제공자뿐 아니라 inference stack 제공자에게도 열리고 있다. 긴 컨텍스트와 다중 에이전트를 저비용·저지연으로 유지하는 능력이 차세대 AI 인프라의 핵심 상품성이 될 수 있다.

실무적으로는 에이전트 제품팀이 token-per-task, cache hit rate, compaction frequency, sub-agent fan-out, tail latency를 기본 운영 지표로 삼아야 한다. 2026년의 agent 성능은 더 똑똑한 모델 하나보다, 같은 모델을 어떤 시스템 위에서 굴리느냐에 더 크게 좌우된다.