배경 및 맥락
AI 인프라 논의는 오랫동안 GPU 중심으로 흘렀다. 하지만 agent가 실제로 동작하는 환경을 보면 상황이 다르다. tool 호출, 샌드박스 제어, 코드 실행, 상태 관리, 검색과 데이터 이동은 GPU보다 CPU와 메모리 서브시스템에 더 큰 부담을 준다. 특히 여러 에이전트가 병렬로 움직이고 세션이 길어질수록 CPU가 control plane이 아니라 throughput bottleneck이 되기 쉽다.
NVIDIA는 이번 발표를 통해 그 병목을 별도 제품군으로 다루겠다는 신호를 보냈다. Vera는 단순히 GPU를 보조하는 host CPU가 아니라, agentic workload를 위해 설계한 독립 사업 축으로 소개됐다.
핵심 내용
공식 블로그에 따르면 Vera는 NVIDIA의 첫 custom CPU이며, 첫 시스템이 Anthropic, OpenAI, SpaceXAI에 금요일에 전달되고 OCI에는 다음 월요일에 전달됐다. 이 CPU는 88개의 Olympus 코어와 1.2TB/s 메모리 대역폭을 갖추고, full load 기준 50% 빠른 per-core 성능을 제공한다고 설명됐다. NVIDIA는 Vera가 orchestration, tool calling, RL workload, data analytics, agent sandboxing, long-context state management를 주된 처리 대상으로 삼는다고 밝혔다.
또한 Vera는 Rubin GPU, BlueField-4 DPU, Spectrum-X와 함께 extreme codesign 스토리의 일부로 제시됐다. Vera Rubin NVL72에서는 두 개의 Rubin GPU와 NVLink-C2C로 연결되며, NVIDIA는 전통적 인프라 대비 2배 에너지 효율로 가속 연산을 계속 공급할 수 있다고 주장한다. OCI는 2026년부터 수십만 개의 Vera CPU를 배치할 계획이라고 밝혔고, hyperscale 수준의 agent 인프라로 바로 투입하겠다는 의도를 드러냈다.
경쟁 구도 / 비교
지금까지 AI 인프라 비교는 H100, B100, TPU 같은 accelerator 숫자로 요약되는 경우가 많았다. Vera는 그 비교 프레임이 불완전하다는 점을 보여준다. agent 시대에는 CPU가 단순 보조 장치가 아니라 전체 시스템 반응성과 단가를 좌우하는 실질적 병목이 되기 때문이다. 이는 x86 서버를 범용적으로 쓰던 구조에서, 특정 agent workload를 위한 purpose-built node architecture로 넘어가는 흐름을 강화한다.
클라우드 사업자 입장에서도 차별화 포인트가 달라진다. OCI가 Vera를 hyperscale에 먼저 올리겠다고 한 것은 GPU 수급 경쟁뿐 아니라 CPU·메모리·전력 효율을 포함한 전체 랙 설계 경쟁에서 선점 효과를 노리겠다는 뜻이다.
의미
산업적으로는 AI가 다시 한 번 하드웨어 지형을 재편하고 있다. GPU 공급 확보만으로는 충분하지 않고, agent workload의 제어 계층까지 최적화한 CPU 설계가 새로운 경쟁 단위가 됐다. 실무적으로는 추론 클러스터와 agent execution cluster를 같은 기준으로 설계하던 관행을 재검토해야 한다.
앞으로 agent 플랫폼 팀은 모델 품질과 API 비용만이 아니라 CPU saturation, memory bandwidth, sandbox density, energy efficiency를 운영 지표에 넣어야 한다. Vera 같은 제품이 시장에 안착하면, AI 시스템 아키텍처는 'GPU 얼마나 많이 확보했는가'보다 'agent execution path를 얼마나 균형 있게 설계했는가'로 평가받게 될 가능성이 높다.