PickleeAI와 개발에 대한 짧은 노트
홈아티클아카이브검색

끝까지 읽는 글

AI와 개발에 관한 변화 중에서 블로그처럼 오래 읽을 수 있는 글만 골라 정리합니다.

© 2026 Picklee

RSSSitemap

글

2026년 5월 6일수정 2026년 5월 6일원문

NVIDIA extreme co-design — agent 인프라 경쟁이 모델 FLOPs보다 token economics 최적화로 이동

NVIDIA는 2026년 5월 5일 agentic workload의 토큰 경제성을 분석하며, Claude Code 세션 예시에서 33분 동안 283개 inference request, 225개 sub-agent invocation, 15K→156K token context 성장 후 20K로 compaction 되는 패턴을 공개했다. 회사는 이를 해결하기 위해 Vera Rubin NVL72,…

AI
에이전트
산업
트렌드

배경 및 맥락

에이전트가 실제 업무를 맡기 시작하면서 추론 비용 구조가 일반 챗봇과 완전히 달라졌다. 하나의 질문에 하나의 답을 주는 linear chat과 달리, 에이전트는 도구를 호출하고 서브에이전트를 띄우고 파일을 다시 읽으며 컨텍스트를 계속 키운다. 그래서 병목은 단순 모델 성능이 아니라, 누적 토큰 처리량과 긴 컨텍스트를 얼마나 경제적으로 유지하느냐로 이동한다.

NVIDIA의 이번 글은 이 변화를 인프라 관점에서 해부한다. 특히 실제 Claude Code 세션을 예로 들며, agent workload가 왜 기존 serving economics를 깨는지를 구체적으로 설명한다는 점이 중요하다.


핵심 내용

NVIDIA는 2026년 5월 5일 게시한 기술 글에서 33분짜리 agentic coding session을 분석했다. 이 세션은 58개 main-agent turn과 225개 sub-agent invocation을 포함해 총 283개 inference request를 발생시켰고, context window는 15K token에서 156K까지 커진 뒤 compaction으로 약 20K까지 줄었다. 또한 coding agent는 95~98% cache hit rate를 유지할 수 있으며, cache reuse가 없으면 입력 처리 비용이 대략 6배 높아질 수 있다고 설명했다.

NVIDIA는 이를 감당하려면 단일 칩이 아니라 전체 플랫폼 수준의 extreme co-design이 필요하다고 주장한다. 제안된 스택은 Vera Rubin NVL72, Vera CPU, Groq 3 LPX, NVLink 6, ConnectX-9, BlueField-4, Spectrum-X와 함께 Dynamo, NVFP4, TRT-LLM WideEP, speculative decoding을 결합하며, 최대 400k context를 가진 trillion-parameter MoE에서 사용자당 400+ tokens/sec를 목표로 한다.


경쟁 구도 / 비교

기존 AI 인프라 논의는 더 큰 GPU와 더 높은 FLOPs 중심이었다. 하지만 agent workload에서는 tool latency, cache locality, context compaction, low-jitter token generation 같은 요소가 같은 수준으로 중요하다. 즉, 문제는 모델 하나를 빨리 돌리는 것이 아니라 다단계 agent session 전체를 경제적으로 유지하는 것이다.

이 점에서 NVIDIA의 메시지는 분명하다. 앞으로 agent 인프라 경쟁은 모델 벤치마크보다 token economics orchestration에 가까워진다. 이는 클라우드, 칩, inference runtime, developer platform 사이의 경계를 더 빠르게 허물 가능성이 있다.


의미

산업적으로는 agent 시대의 승부처가 모델 제공자뿐 아니라 inference stack 제공자에게도 열리고 있다. 긴 컨텍스트와 다중 에이전트를 저비용·저지연으로 유지하는 능력이 차세대 AI 인프라의 핵심 상품성이 될 수 있다.

실무적으로는 에이전트 제품팀이 token-per-task, cache hit rate, compaction frequency, sub-agent fan-out, tail latency를 기본 운영 지표로 삼아야 한다. 2026년의 agent 성능은 더 똑똑한 모델 하나보다, 같은 모델을 어떤 시스템 위에서 굴리느냐에 더 크게 좌우된다.

더 읽기

같이 읽어볼 만한 글

전체 글 보기
2026년 5월 3일

Microsoft Agent 365 GA — 에이전트 도입 경쟁이 생성 성능에서 관리·보안 control plane으로 이동

Microsoft는 2026년 5월 1일 Agent 365의 general availability를 발표했다. Agent 365는 delegated access agent와 own-credential agent를 모두 대상으로 observability, governance, security를 제공하는 control plane이며, shadow AI 탐지와 Windows 365 for…

2026년 4월 17일

A2A Protocol 1년차 확산 — 멀티에이전트 시장의 병목이 모델 성능에서 상호운용 표준으로 이동

Linux Foundation은 2026년 4월 9일 A2A Protocol이 1년 만에 150개 이상 조직의 지지를 확보했고, Google·Microsoft·AWS 플랫폼에 통합되며 production-ready open standard로 자리 잡았다고 발표했다. A2A 1.0은 multi-protocol support, multi-tenancy, modernized security…

2026년 4월 15일

Parasail, $32M Series A 유치 — AI 인프라 경쟁의 병목이 training보다 inference 브로커리지로 이동

Parasail은 2026년 4월 15일 3,200만 달러 Series A를 유치했고, 회사 측은 현재 하루 5,000억 토큰 규모의 inference를 처리한다고 밝혔다. 이 회사는 자체 GPU 일부를 보유하지만 핵심 전략은 15개국 40개 데이터센터의 연산 용량과 secondary liquidity market을 묶어 inference 워크로드를 오케스트레이션하는 데 있다. 🔍 왜…

2026년 4월 11일

Azure MCP Server 2.0 stable — MCP가 로컬 개발 편의 기능을 넘어 중앙 통제형 클라우드 운영 인터페이스가 되다

Microsoft는 2026년 4월 10일 Azure MCP Server 2.0 stable을 발표했다. 이번 릴리즈는 57개 Azure 서비스에 걸친 276개 MCP tools를 제공하며, 핵심 변화로 self-hosted remote MCP server, managed identity·OBO 기반 인증, 보안 강화, sovereign cloud 대응을 내세웠다. 🔍 왜 주목해야 하나…