Feature Article
Google Agent Bake-Off 정리 — 프롬프트 엔지니어링 이후의 기준은 rigorous agentic engineering
배경 및 맥락
에이전트 열풍이 커지면서 많은 팀이 여전히 '좋은 시스템 프롬프트 하나'와 '강한 모델 하나'로 문제를 해결하려 한다. 하지만 실제 운영 환경에서 실패하는 지점은 대개 모델 지능이 아니라 상태 관리, 외부 시스템 연결, 장애 복구, 비결정적 동작의 누적이다. PoC는 잘 돌아가도 운영 단계에서 유지보수 비용과 신뢰성 문제가 폭발하는 이유다.
Google이 Agent Bake-Off 경험을 바탕으로 정리한 이번 글은 이 간극을 잘 보여준다. 실제 과제를 제한 시간 안에 풀어본 팀들의 시행착오를 통해, 프로덕션 에이전트는 prompt engineering의 연장이 아니라 별도의 engineering discipline이라는 점을 강조한다. 이는 에이전트 구축 방법론이 실험기에서 규범화 단계로 넘어가고 있다는 신호다.
핵심 내용
공식 글의 핵심 메시지는 단순하다. production-ready agent는 better prompt보다 rigorous agentic engineering이 필요하다는 것이다. Google은 multi-agent architecture, state management, deterministic guardrails를 전면에 놓고, 단일 거대 LLM이 intent extraction, DB retrieval, stylistic reasoning을 한 번에 처리하려 들면 hallucination과 latency spike가 커진다고 지적했다.
구체 사례도 제시됐다. 글에 따르면 한 팀은 tightly-scoped sub-agent를 병렬로 운용해 처리 시간을 1시간에서 10분으로 줄였다. 또한 Google은 agent harness가 빠르게 obsolete될 수 있으므로 모듈형으로 설계해야 하며, 내부 도구 연결은 custom wrapper 대신 MCP 같은 open protocol을 채택해야 장기적으로 유지비가 낮아진다고 설명했다. 요약하면 agent system은 잘 쓴 프롬프트 묶음이 아니라 교체 가능한 부품과 명확한 책임 분리를 가진 소프트웨어 시스템이어야 한다는 주장이다.
경쟁 구도 / 비교
이 글은 특정 SDK 기능보다 더 넓은 함의를 갖는다. OpenAI, Microsoft, Anthropic, Google이 각자 agent runtime을 밀고 있지만, 이들이 점점 공통적으로 강조하는 항목은 비슷해지고 있다. sub-agent 분해, guardrail, observability, protocol standardization, tool isolation 같은 요소가 이제 vendor-specific trick이 아니라 업계 공통 체크리스트가 되고 있다.
특히 Google이 MCP를 open protocol 예시로 공개적으로 밀어준 점은 중요하다. 이는 에이전트 생태계가 폐쇄형 플러그인 방식보다 상호운용 가능한 프로토콜로 이동할 가능성을 높인다. 제품 벤더마다 UI는 달라도, 그 아래 연결 계약은 점차 공유 표준으로 수렴할 수 있다.
의미
이번 글의 의미는 '에이전트는 결국 소프트웨어 아키텍처 문제'라는 사실을 큰 플랫폼 사업자가 명시적으로 정리했다는 데 있다. 이는 앞으로 에이전트 프로젝트 평가 기준이 데모 품질이나 화려한 벤치마크보다, 얼마나 분해 가능하고 교체 가능하며 안전한 구조인지로 이동할 것임을 시사한다.
실무적으로는 agent backlog를 기능 목록이 아니라 시스템 설계 항목으로 재구성해야 한다. supervisor 설계, 상태 저장 방식, deterministic fallback, protocol 선택, 권한 경계가 초기 설계서에 포함되어야 하며, 그렇지 않으면 모델이 좋아져도 운영 안정성은 확보되지 않는다.