배경 및 맥락
지난 1년간 모델 경쟁은 더 높은 reasoning 점수와 더 긴 context window를 전면에 내세웠지만, 실제 제품 경쟁은 점점 agent가 얼마나 현실적인 작업을 끝까지 수행하느냐로 이동해 왔다. 이 단계에서는 모델 하나의 품질만으로는 부족하고, 멀티스텝 실행을 관리하는 하네스, 하위 agent 협업 구조, 그리고 개발자에게 바로 연결되는 배포 표면이 함께 필요하다.
Google은 이번 I/O 2026 발표에서 이 점을 노골적으로 드러냈다. Gemini 3.5 Flash 자체의 성능뿐 아니라 Antigravity, AI Studio, Android Studio, Gemini app, Search, Enterprise platform을 한 번에 묶어 내놓으면서 agentic stack을 제품화된 시스템으로 제시했다.
핵심 내용
공식 발표에 따르면 Gemini 3.5 Flash는 2026년 5월 19일부터 일반 사용자, 개발자, 기업 고객에게 동시에 제공된다. Google은 이 모델이 Terminal-Bench 2.1에서 76.2%, GDPval-AA에서 1656 Elo, MCP Atlas에서 83.6%, CharXiv Reasoning에서 84.2%를 기록했다고 설명했다. 또한 Gemini 3.1 Pro보다 대부분의 벤치마크에서 우위에 있으면서도 다른 frontier 모델 대비 4배 빠른 속도를 제공한다고 주장했다.
중요한 부분은 모델 배치 방식이다. 3.5 Flash는 Google Antigravity와 결합해 collaborative subagent workflow를 처리하고, 코드베이스 현대화나 멀티스텝 앱 제작 같은 long-horizon 작업을 수행하도록 설계됐다. Google은 이를 Search의 AI Mode, Gemini app, Android Studio, Gemini API, Enterprise Agent Platform까지 연결했다.
경쟁 구도 / 비교
OpenAI와 Anthropic이 코딩 에이전트와 managed runtime, connector 계층을 강화하는 동안, Google은 이번에 모델과 실행 하네스를 동시에 전면에 내세웠다. 이는 단순히 더 좋은 모델을 제공하는 전략보다, 더 넓은 product surface에서 같은 agentic core를 재사용하려는 접근에 가깝다.
또한 Flash 라인업이 frontier 성능과 속도를 함께 잡았다는 주장은 고가의 최고급 모델만이 agent를 돌릴 수 있다는 인식을 흔든다. 빠른 모델이 충분한 품질을 내면, 실제 도입 결정은 latency·비용·통합 편의성에서 크게 갈릴 수 있다.
의미
산업적으로는 모델 경쟁이 점점 execution platform 경쟁으로 바뀌고 있다. 어느 회사가 더 높은 점수를 내느냐보다, 어떤 하네스와 배포 표면으로 agent를 실제 업무 안에 밀어 넣느냐가 더 중요해지고 있다.
실무적으로는 제품팀과 플랫폼팀이 모델 교체만으로 AI 전략을 설명하기 어려워졌다. 앞으로는 subagent 구조, 앱/검색/IDE 연계, 비용 대비 처리량, 안전장치까지 포함한 end-to-end 설계를 비교해야 한다.