Feature Article
Google Gemini 3.1 Flash Live 공개 — 실시간 음성 에이전트용 오디오 모델, ComplexFuncBench Audio 90.8%
Google은 2026년 3월 26일 Gemini 3.1 Flash Live를 공개하며 실시간 음성 대화용 모델을 Live API preview로 제공하기 시작했다. Google 발표에 따르면 이 모델은 ComplexFuncBench Audio에서 90.8%, Audio MultiChallenge에서 36.1%를 기록하며 다단계 함수 호출과 장기 오디오 추론 성능을 끌어올렸다. 🔍 왜…
배경 및 맥락
실시간 음성 에이전트는 오랫동안 데모는 그럴듯하지만 실전 투입은 어려운 영역이었다. 음성 입력을 텍스트로 변환한 뒤 일반 LLM으로 처리하고 다시 음성으로 합성하는 파이프라인은 지연이 길고, 중간 인터럽션이나 잡음 환경, 장기 문맥 유지에 약했다. 그래서 음성 인터페이스는 검색이나 단문 질의 수준에 머무르는 경우가 많았다.
Google은 Search Live, Gemini Live, Gemini API를 통해 음성 인터페이스를 제품과 플랫폼 양쪽에서 동시에 밀고 있다. 이번 Flash Live는 소비자용 경험과 개발자용 API를 같은 모델 축으로 묶어, 음성 AI를 별도 실험 기능이 아니라 핵심 인터페이스 계층으로 끌어올리려는 시도다.
핵심 내용
Google에 따르면 Gemini 3.1 Flash Live는 Gemini Live API를 통해 preview로 제공되며, 개발자와 기업은 이를 이용해 voice-first agent를 구축할 수 있다. 성능 지표로는 ComplexFuncBench Audio 90.8%, Scale AI의 Audio MultiChallenge 36.1%(thinking on 기준)를 제시했다. 이 지표들은 단순 음성 인식이 아니라 다단계 함수 호출, 복잡한 지시 수행, 긴 호흡의 reasoning을 요구하는 시나리오에 초점을 둔다.
모델은 톤과 말의 속도 같은 acoustic nuance 인식도 개선했다고 밝혔다. 또한 Search Live와 Gemini Live에서 200개 이상 국가로 확장되며, 생성 오디오에는 워터마킹을 적용한다고 명시했다. 이는 품질과 배포 범위뿐 아니라 신뢰성·안전성 메커니즘까지 제품 기본값으로 가져가려는 접근이다.
경쟁 구도 / 비교
최근 음성 AI 경쟁은 OpenAI의 음성 인터랙션, Google의 Gemini Live, 여러 스타트업의 low-latency speech stack이 혼재하는 양상이다. Flash Live의 포인트는 단순히 더 자연스럽게 말하는 모델이 아니라, 함수 호출과 task execution까지 포함하는 실시간 에이전트 모델이라는 점이다.
이미 DB에 들어간 Gemini 3.1 Flash-Lite가 비용 효율 중심의 텍스트/멀티모달 추론 최적화였다면, Flash Live는 실시간 대화와 실행성에 초점이 맞춰져 있다. Google은 같은 Gemini 계열 안에서 cost tier, live tier, enterprise tier를 세분화하며 용도별 제품 라인업을 빠르게 정교화하고 있다.
의미
이 발표는 음성 AI가 "말을 잘하는 모델" 경쟁에서 "업무를 끝내는 실시간 에이전트" 경쟁으로 넘어갔음을 보여준다. 앞으로 음성 제품의 차별화 포인트는 음질보다도 function calling 신뢰도, interruption 대응, latency budget, 안전장치 설계가 될 가능성이 높다.
실무적으로는 콜센터, 현장 업무, 차량, 웨어러블처럼 손이 자유롭지 않은 환경에서 voice-first workflow를 재설계할 여지가 커졌다. 텍스트 UI의 보조 기능으로 음성을 붙이는 접근보다, 애초에 음성을 기본 인터페이스로 두는 제품 설계가 다시 부상할 수 있다.