PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 4월 4일

Google Gemini 3.1 Flash Live 공개 — 실시간 음성 에이전트용 오디오 모델, ComplexFuncBench Audio 90.8%

Google은 2026년 3월 26일 Gemini 3.1 Flash Live를 공개하며 실시간 음성 대화용 모델을 Live API preview로 제공하기 시작했다. Google 발표에 따르면 이 모델은 ComplexFuncBench Audio에서 90.8%, Audio MultiChallenge에서 36.1%를 기록하며 다단계 함수 호출과 장기 오디오 추론 성능을 끌어올렸다.

본문 읽기원문 보기

발행일

2026년 4월 4일

업데이트

2026년 4월 4일

주제

트렌드
API
AI
Gemini
모델
원문 보기

배경 및 맥락

실시간 음성 에이전트는 오랫동안 데모는 그럴듯하지만 실전 투입은 어려운 영역이었다. 음성 입력을 텍스트로 변환한 뒤 일반 LLM으로 처리하고 다시 음성으로 합성하는 파이프라인은 지연이 길고, 중간 인터럽션이나 잡음 환경, 장기 문맥 유지에 약했다. 그래서 음성 인터페이스는 검색이나 단문 질의 수준에 머무르는 경우가 많았다.

Google은 Search Live, Gemini Live, Gemini API를 통해 음성 인터페이스를 제품과 플랫폼 양쪽에서 동시에 밀고 있다. 이번 Flash Live는 소비자용 경험과 개발자용 API를 같은 모델 축으로 묶어, 음성 AI를 별도 실험 기능이 아니라 핵심 인터페이스 계층으로 끌어올리려는 시도다.


핵심 내용

Google에 따르면 Gemini 3.1 Flash Live는 Gemini Live API를 통해 preview로 제공되며, 개발자와 기업은 이를 이용해 voice-first agent를 구축할 수 있다. 성능 지표로는 ComplexFuncBench Audio 90.8%, Scale AI의 Audio MultiChallenge 36.1%(thinking on 기준)를 제시했다. 이 지표들은 단순 음성 인식이 아니라 다단계 함수 호출, 복잡한 지시 수행, 긴 호흡의 reasoning을 요구하는 시나리오에 초점을 둔다.

모델은 톤과 말의 속도 같은 acoustic nuance 인식도 개선했다고 밝혔다. 또한 Search Live와 Gemini Live에서 200개 이상 국가로 확장되며, 생성 오디오에는 워터마킹을 적용한다고 명시했다. 이는 품질과 배포 범위뿐 아니라 신뢰성·안전성 메커니즘까지 제품 기본값으로 가져가려는 접근이다.


경쟁 구도 / 비교

최근 음성 AI 경쟁은 OpenAI의 음성 인터랙션, Google의 Gemini Live, 여러 스타트업의 low-latency speech stack이 혼재하는 양상이다. Flash Live의 포인트는 단순히 더 자연스럽게 말하는 모델이 아니라, 함수 호출과 task execution까지 포함하는 실시간 에이전트 모델이라는 점이다.

이미 DB에 들어간 Gemini 3.1 Flash-Lite가 비용 효율 중심의 텍스트/멀티모달 추론 최적화였다면, Flash Live는 실시간 대화와 실행성에 초점이 맞춰져 있다. Google은 같은 Gemini 계열 안에서 cost tier, live tier, enterprise tier를 세분화하며 용도별 제품 라인업을 빠르게 정교화하고 있다.


의미

이 발표는 음성 AI가 "말을 잘하는 모델" 경쟁에서 "업무를 끝내는 실시간 에이전트" 경쟁으로 넘어갔음을 보여준다. 앞으로 음성 제품의 차별화 포인트는 음질보다도 function calling 신뢰도, interruption 대응, latency budget, 안전장치 설계가 될 가능성이 높다.

실무적으로는 콜센터, 현장 업무, 차량, 웨어러블처럼 손이 자유롭지 않은 환경에서 voice-first workflow를 재설계할 여지가 커졌다. 텍스트 UI의 보조 기능으로 음성을 붙이는 접근보다, 애초에 음성을 기본 인터페이스로 두는 제품 설계가 다시 부상할 수 있다.

이어 읽기

관련 읽을거리

전체 보기
2026년 4월 5일Google Gemma 4 공개 — Apache 2.0·256K 컨텍스트·멀티모달, 오픈 에이전틱 모델의 새 기준Google이 4월 2~3일 Gemma 4를 Apache 2.0 라이선스로 공개했다. Effective 2B·4B·26B MoE·31B Dense 네 가지 크기로 제공되며, 256K 토큰 컨텍스트, 비전·오디오 네이티브 멀티모달, 140개 이상 언어를 지원한다.2026년 4월 2일Google Gemini 3.1 Flash-Lite 출시 — Pro 대비 1/8 가격에 Gemini 2.5 Flash 동등 성능Google이 Gemini 3.1 Flash-Lite를 개발자 프리뷰로 출시했다. 입력 $0.25/1M 토큰(Pro의 1/8 수준), 출력 $1.50/1M 토큰이며, Gemini 2.5 Flash 대비 Time to First Token 2.5배 향상, 출력 속도 45% 향상을 달성하면서 핵심 성능 지표에서는 Gemini 2.5 Flash와 동등하다.2026년 5월 19일Gemini 3.5 Flash — Google이 agentic coding의 기본 축을 모델+하네스 결합으로 재정의Google은 2026년 5월 19일 Gemini 3.5 Flash를 공개하며 Gemini app, AI Mode in Search, Google Antigravity, Gemini API, Android Studio, Gemini Enterprise Agent Platform 전반에 즉시 배포했다. Google은 이 모델이 Terminal-Bench 2.1 76.2%, GDPval-AA…2026년 5월 6일Gemini API File Search is now multimodal — RAG 경쟁이 text retrieval에서 multimodal evidence layer로 이동Google은 2026년 5월 5일 Gemini API File Search에 multimodal support, custom metadata, page-level citations를 추가했다. 이제 텍스트와 이미지를 함께 색인·검색할 수 있고, metadata filter로 검색 범위를 줄이며, 응답마다 원문 페이지 단위 citation을 붙여 verifiable RAG를 구성할 수 있다.