글
Google Cloud Next '26 — agent 플랫폼 경쟁이 모델 호스팅에서 full-stack agent operating system으로 이동
Google은 2026년 4월 22일 Cloud Next '26에서 Gemini Enterprise Agent Platform과 8세대 TPU 8t·8i를 공개했다. Agent Platform은 Vertex AI를 사실상 agent 전용 control plane으로 재편하며, Google은 고객 API 트래픽이 분기당 100억 토큰/분에서 160억 토큰/분으로 늘었고 ADK를 통한…
배경 및 맥락
2025년까지 기업용 생성형 AI 경쟁은 주로 어떤 모델을 쓸지, 어떤 벤더 API가 더 싸고 성능이 좋은지에 집중됐다. 하지만 2026년 들어 현장 문제는 모델 호출 그 자체보다 훨씬 복잡해졌다. 에이전트는 여러 시스템을 오가며 도구를 호출하고, 장기 상태를 유지하고, 권한과 보안을 통제한 채 운영 환경에 배포되어야 한다. 이 단계에서는 단일 모델 접근만으로는 부족하고, 오케스트레이션과 런타임이 실질적인 병목이 된다.
Google의 Cloud Next '26 발표는 이 변화를 매우 선명하게 보여준다. Google은 Vertex AI를 개별 모델 개발 플랫폼으로 남겨두지 않고 Gemini Enterprise Agent Platform으로 수렴시키며, 동시에 agent 시대에 맞춘 8세대 TPU를 학습용 8t와 추론용 8i로 분화했다. 즉 agent 경쟁의 핵심을 모델보다 stack 전체의 구조 문제로 재정의한 셈이다.
핵심 내용
Google은 2026년 4월 22일 Cloud Next '26에서 Gemini Enterprise Agent Platform을 공개했다. 공식 설명에 따르면 이 플랫폼은 Vertex AI의 진화형으로, 모델 선택과 파인튜닝, agent 빌딩, integration, DevOps, orchestration, security를 하나의 control plane 안에 묶는다. Google은 향후 Vertex AI의 서비스와 로드맵 진화가 standalone이 아니라 Agent Platform을 통해 제공된다고 명시했다.
플랫폼 측면의 수치도 공격적이다. Google은 고객 direct API 사용량이 분기 기준 분당 100억 토큰에서 160억 토큰으로 증가했다고 밝혔고, ADK를 통한 Gemini 처리량이 월 6조 토큰을 넘는다고 설명했다. Agent Platform은 200개 이상의 모델 접근을 제공하며 Gemini 3.1 Pro, Gemini 3.1 Flash Image, Lyria 3, Gemma 4와 함께 Anthropic Claude 계열까지 포함한다. 또한 sub-agent 네트워크를 위한 graph 기반 ADK, hardened sandbox workspace, event-driven agent, Agent Studio, Agent Garden 템플릿을 함께 제공한다.
하드웨어 면에서는 TPU 8t와 TPU 8i가 함께 발표됐다. TPU 8t는 9,600칩 superpod, 2PB shared HBM, 121 ExaFlops, 전세대 대비 pod당 약 3배 compute 성능을 내세우며 학습용으로 설계됐다. TPU 8i는 288GB HBM, 384MB on-chip SRAM, 19.2 Tb/s interconnect, 최대 80% 높은 performance-per-dollar를 앞세워 reasoning-heavy inference와 다중 agent 협업에 맞춰졌다. 두 칩 모두 later this year GA 예정이며 AI Hypercomputer 일부로 제공된다.
경쟁 구도 / 비교
AWS는 Bedrock과 custom silicon 조합으로, Microsoft는 Copilot/Agent 365와 Azure 스택으로 agent 시장을 확장하고 있다. Google의 차별점은 agent 개발 도구, 데이터 계층, Workspace 맥락, TPU까지 묶어 agent 운영체제를 지향한다는 데 있다. 이는 단일 API 또는 IDE 보조 수준에 머무르는 경쟁사 접근보다 더 강한 잠금 효과와 운영 일관성을 만들 수 있다.
또한 TPU 8t와 8i를 훈련과 추론으로 명시적으로 분리한 전략은 agent 시대의 경제성을 잘 반영한다. 기존에는 더 큰 학습 클러스터가 곧 경쟁력이었지만, 앞으로는 수많은 agent가 동시에 reasoning과 tool use를 반복하는 inference 비용 구조가 훨씬 중요해진다. Google은 이 지점을 custom silicon과 platform UX를 함께 설계해 선점하려 하고 있다.
의미
이번 발표의 의미는 enterprise AI의 기본 단위가 모델 endpoint에서 agent runtime으로 바뀌고 있다는 점이다. agent를 실제 업무 단위로 운영하려면 model routing, memory, sandbox, event handling, observability, security, silicon economics가 하나의 문제로 엮인다. Google은 이를 개별 제품 조합이 아니라 기본 클라우드 아키텍처 문제로 다루기 시작했다.
실무적으로는 기업 AI 팀이 이제 어떤 모델을 쓸지만 묻는 단계에서 벗어나야 한다. agent platform의 상태 관리, 보안 통제, 개발자 경험, 비용 구조, 그리고 vendor lock-in까지 함께 설계해야 하며, PoC 성공보다 production-grade orchestration 기준을 먼저 정하는 조직이 더 빨리 격차를 만들 가능성이 크다.