Feature Article
Google Gemini API, Flex & Priority 인퍼런스 티어 도입 — 비용-신뢰성 트레이드오프를 개발자가 제어
Google은 Gemini API에 Flex(비용 50% 절감, 레이턴시 허용)와 Priority(표준 대비 75~100% 프리미엄, 최고 신뢰성) 두 가지 인퍼런스 티어를 추가했다. 기존 배치 API와 달리 Flex는 동기식 인터페이스로 동일 엔드포인트를 그대로 사용한다. 🔍 왜 주목해야 하나 API 가격 정책의 단순한 변경이 아니라, 에이전트 워크플로우 설계 패턴 자체를 바꾸는 인프라…
배경 및 맥락
LLM API 가격은 지금까지 단순한 '입력 토큰 + 출력 토큰' 단일 단가 모델이었다. 하지만 에이전트 워크플로우가 복잡해지면서, 동일한 API에 대한 '사용자 대면 질의식 20ms 스로리쟥' vs '백그라운드 데이터 분석 2분 허용'이 전혀 다른 경제적 가치를 갖는다는 인식이 확산되고 있다.
OpenAI도 GPT에 Batch API를 도입하며 비싷한 방향을 타진 바 있다. Google은 이에 더해 동기식 인터페이스를 유지하면서 두 가지 분리된 티어를 동시에 제공함으로써 실형성을 높였다.
핵심 내용
Flex Inference 티어:
- 가격: 표준 API 대비 50% 절감
- 특징: 레이턴시 허용, 동기식 인터페이스 (배치 API와 달리 파일 관리 불필요)
- 접근: 모든 유료 티어, GenerateContent 및 Interactions API
- 이상적 사용 사례: 백그라운드 CRM 업데이트, 대규모 리서치 시뮬레이션, 에이전트가 백그라운드에서 '생각'하는 단계
Priority Inference 티어:
- 가격: 표준 API 대비 75~100% 프리미엄
- 특징: 최저 레이턴시 및 최고 신뢰성, Priority 트래픽은 Standard/Flex보다 우선 처리
- 접근: Tier 2/3 유료 프로젝트, 토큰 기반 과금
- 이상적 사용 사례: 사용자 대면 실시간 응답, 비즈니스 크리티컴 워크플로우
발표일: 2026년 4월 2일
경쟁 구도 / 비교
| 프로바이더 | 저비용 옵션 | 고신뢰 옵션 |
|---|---|---|
| Google Gemini | Flex (50% 할인, 동기) | Priority (75~100% 프리미엄) |
| OpenAI GPT | Batch API (50% 할인, 비동기) | 보장없음 |
| Anthropic Claude | 해당 없음 | 해당 없음 |
| AWS Bedrock | 배치 적및 추론 | 보장 SLA |
Google Flex가 OpenAI Batch API도보 구조적으로 유리한 이유는 동기 인터페이스 유지에 있다. 배치 API는 파일 제출 → 완료 폴링 동시에 코드 변경이 필요하지만, Flex는 파라미터 하나만 이시로 전환 가능하다.
의미
이번 발표는 'LLM API를 어떻게 저렴하게 상시적으로 통합할 것인가'라는 실용적 문제에 직접 답한다. 에이전트 아키텍쳐가 복잡해질수록, 토큰당 비용의 단순 합산 대신 '요청 속성별 동적 라우팅'은 아키텍쳐의 필수 패턴이 될 가능성이 롭다.
AI 롌트 운영 최적화를 고민하는 엔지니어링 팀에 Flex 도입은 매울 단위로 츜으면 실질적인 토큰 비용 절감 결과로 이어진다.