PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 4월 4일

Google Gemini API, Flex & Priority 인퍼런스 티어 도입 — 비용-신뢰성 트레이드오프를 개발자가 제어

Google은 Gemini API에 Flex(비용 50% 절감, 레이턴시 허용)와 Priority(표준 대비 75~100% 프리미엄, 최고 신뢰성) 두 가지 인퍼런스 티어를 추가했다. 기존 배치 API와 달리 Flex는 동기식 인터페이스로 동일 엔드포인트를 그대로 사용한다.

본문 읽기원문 보기

발행일

2026년 4월 4일

업데이트

2026년 4월 4일

주제

AI
API
Gemini
개발도구
원문 보기

배경 및 맥락

LLM API 가격은 지금까지 단순한 '입력 토큰 + 출력 토큰' 단일 단가 모델이었다. 하지만 에이전트 워크플로우가 복잡해지면서, 동일한 API에 대한 '사용자 대면 질의식 20ms 스로리쟥' vs '백그라운드 데이터 분석 2분 허용'이 전혀 다른 경제적 가치를 갖는다는 인식이 확산되고 있다.

OpenAI도 GPT에 Batch API를 도입하며 비싷한 방향을 타진 바 있다. Google은 이에 더해 동기식 인터페이스를 유지하면서 두 가지 분리된 티어를 동시에 제공함으로써 실형성을 높였다.


핵심 내용

Flex Inference 티어:

  • 가격: 표준 API 대비 50% 절감
  • 특징: 레이턴시 허용, 동기식 인터페이스 (배치 API와 달리 파일 관리 불필요)
  • 접근: 모든 유료 티어, GenerateContent 및 Interactions API
  • 이상적 사용 사례: 백그라운드 CRM 업데이트, 대규모 리서치 시뮬레이션, 에이전트가 백그라운드에서 '생각'하는 단계

Priority Inference 티어:

  • 가격: 표준 API 대비 75~100% 프리미엄
  • 특징: 최저 레이턴시 및 최고 신뢰성, Priority 트래픽은 Standard/Flex보다 우선 처리
  • 접근: Tier 2/3 유료 프로젝트, 토큰 기반 과금
  • 이상적 사용 사례: 사용자 대면 실시간 응답, 비즈니스 크리티컴 워크플로우

발표일: 2026년 4월 2일


경쟁 구도 / 비교

프로바이더저비용 옵션고신뢰 옵션
Google GeminiFlex (50% 할인, 동기)Priority (75~100% 프리미엄)
OpenAI GPTBatch API (50% 할인, 비동기)보장없음
Anthropic Claude해당 없음해당 없음
AWS Bedrock배치 적및 추론보장 SLA

Google Flex가 OpenAI Batch API도보 구조적으로 유리한 이유는 동기 인터페이스 유지에 있다. 배치 API는 파일 제출 → 완료 폴링 동시에 코드 변경이 필요하지만, Flex는 파라미터 하나만 이시로 전환 가능하다.


의미

이번 발표는 'LLM API를 어떻게 저렴하게 상시적으로 통합할 것인가'라는 실용적 문제에 직접 답한다. 에이전트 아키텍쳐가 복잡해질수록, 토큰당 비용의 단순 합산 대신 '요청 속성별 동적 라우팅'은 아키텍쳐의 필수 패턴이 될 가능성이 롭다.

AI 롌트 운영 최적화를 고민하는 엔지니어링 팀에 Flex 도입은 매울 단위로 츜으면 실질적인 토큰 비용 절감 결과로 이어진다.

이어 읽기

관련 읽을거리

전체 보기
2026년 4월 30일Prepay for the Gemini API to get more control over your spend — 에이전트 경제성이 기능보다 먼저 제품 표면으로 올라오다Google은 2026년 4월 15일 Google AI Studio용 Gemini API Prepay Billing을 발표했다. 신규 Google Cloud Billing Account를 여는 미국 사용자부터 선불 크레딧 기반 결제를 쓸 수 있고, 자동 충전과 함께 남은 잔액을 기준으로 API 호출 비용을 관리하게 해 spend predictability를 높이겠다는 내용이다.2026년 6월 26일HF Jobs vLLM server - throwaway OpenAI-compatible endpoints get pay-per-second GPUsHugging Face는 HF Jobs에서 vLLM server를 한 번의 CLI 명령으로 띄워 private OpenAI-compatible LLM endpoint를 만들 수 있는 흐름을 공개했다. 서버 프로비저닝이나 Kubernetes 없이 pay-per-second GPU 인프라에서 테스트, eval, batch generation 용도로 빠르게 사용할 수 있다는 점을 전면에 내세웠다.2026년 6월 7일WWDC26 Apple Intelligence APIs — on-device model access가 앱 기능에서 workflow substrate로 확장Apple은 WWDC26 시점에 Apple Intelligence 개발 표면을 확대하며, App Intents 기반 Use Model action으로 앱이 on-device 또는 Private Cloud Compute 모델 응답을 Shortcut 흐름에 직접 연결할 수 있게 했다. 동시에 Xcode 26.3은 Anthropic과 OpenAI의 coding agents를 IDE 안에서 호출해…2026년 5월 27일Building the agentic future: Developer highlights from I/O 2026 — Google이 agent 개발 스택을 managed runtime으로 끌어올렸다Google은 2026년 5월 19일 I/O에서 Gemini 3.5 Flash, Antigravity 2.0, Gemini API용 Managed Agents, 그리고 Google AI Studio의 Android/Workspace 연동을 한 묶음으로 공개했다. 특히 Managed Agents는 단일 API 호출로 격리된 Linux 환경에서 reasoning·tool use·code…