글
Advancing voice intelligence with new models in the API — voice AI 경쟁이 STT/TTS를 넘어 realtime agent runtime으로 이동
OpenAI는 2026년 5월 7일 Realtime API용 새 음성 모델 3종 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper를 공개했다. GPT-Realtime-2는 컨텍스트 윈도를 32K에서 128K로 늘리고 병렬 tool call, 조정 가능한 reasoning effort, 더 강한 recovery behavior를…
배경 및 맥락
그동안 voice AI는 음성을 텍스트로 바꾸는 STT, 답변을 읽어주는 TTS, 그리고 별도 LLM을 조합하는 파이프라인 성격이 강했다. 이 구조는 빠른 프로토타입에는 유리했지만, 대화 중 맥락 유지, 도구 호출, 다국어 전환, 오류 복구를 한 세션 안에서 자연스럽게 처리하기에는 한계가 있었다.
실제 서비스에서는 사용자가 중간에 말을 바꾸고, 외부 도구를 호출해야 하며, 긴 대화 맥락을 유지해야 한다. OpenAI의 이번 발표는 voice layer를 더 이상 주변 기능이 아니라 에이전트 실행 표면으로 다루기 시작했다는 신호다.
핵심 내용
OpenAI는 2026년 5월 7일 Realtime API에 세 가지 모델을 추가했다. GPT-Realtime-2는 GPT-5급 reasoning을 음성 세션에 가져오며, context window를 32K에서 128K로 확장했다. 병렬 tool calls, tool transparency용 preamble, 조정 가능한 reasoning effort, 더 나은 interruption/실패 복구가 포함된다. 오디오 평가에서는 Big Bench Audio에서 15.2% 향상, Audio MultiChallenge에서 13.8% 향상을 제시했다.
GPT-Realtime-Translate는 70개 이상 입력 언어를 13개 출력 언어로 실시간 번역하고, GPT-Realtime-Whisper는 스트리밍 전사에 맞춘 저지연 STT를 제공한다. 가격도 구체적으로 공개됐다. GPT-Realtime-2는 오디오 입력 1M 토큰당 32달러, 출력 1M 토큰당 64달러이며, Translate와 Whisper는 각각 분당 0.034달러, 0.017달러다.
경쟁 구도 / 비교
기존 음성 스택은 STT 모델, 텍스트 LLM, TTS 모델을 느슨하게 묶는 방식이 일반적이었다. 이 경우 각 단계의 지연과 오류가 누적되고, tool call이나 다중 언어 전환은 애플리케이션 레이어가 별도로 메워야 했다. 반면 이번 구성은 reasoning, translation, transcription을 realtime 세션 중심으로 재패키징해 voice product를 agent workflow에 직접 연결한다.
즉 경쟁 포인트가 더 자연스러운 발화 합성보다, 대화 중 실제 작업을 얼마나 안정적으로 수행하느냐로 이동하고 있다. voice는 이제 UI 채널이 아니라 action surface다.
의미
산업적으로는 음성 인터페이스가 다시 주목받는 것이 아니라, 에이전트 시대의 기본 입력/출력 계층으로 재편되는 흐름에 가깝다. 특히 고객지원, 여행, 의료, 현장업무처럼 손이 자유롭지 않은 환경에서는 voice-first agent가 텍스트 챗보다 더 빠르게 확산될 수 있다.
실무적으로는 제품팀이 latency budget, session memory, tool call guardrail, 다국어 품질, 음성 세션 비용을 한 번에 관리하는 운영 모델을 준비해야 한다. 향후 voice roadmap은 STT 정확도보다 workflow completion rate로 평가될 가능성이 크다.