배경 및 맥락
음성 인터페이스는 그동안 말을 텍스트로 바꾸는 STT, 의도를 분류하는 NLU, 답변을 읽어주는 TTS를 이어 붙인 파이프라인 구조가 일반적이었다. 이 방식은 구성요소를 교체하기 쉽지만, 대화 중간의 추론과 문맥 유지, 다국어 응답, 도구 호출을 동시에 다루기엔 지연과 복잡도가 빠르게 커진다.
이번 OpenAI 발표는 그 파이프라인을 모델 중심 런타임으로 압축하려는 시도다. 음성이 단순 입출력 채널이 아니라 reasoning과 action의 주 인터페이스가 되면, 제품 설계의 중심도 프롬프트 엔지니어링보다 turn-level latency, barge-in 처리, fallback 정책으로 옮겨간다.
핵심 내용
OpenAI는 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper를 Realtime API에 제공한다고 밝혔다. GPT-Realtime-2는 GPT-5급 추론을 바탕으로 더 복잡한 요청을 음성 대화 중 처리하도록 설계됐고, GPT-Realtime-Translate는 70개 이상 입력 언어를 13개 출력 언어로 실시간 번역한다. GPT-Realtime-Whisper는 저지연 전사 모델로 제시됐다.
가격도 구체적이다. GPT-Realtime-2는 오디오 입력 100만 토큰당 32달러, 캐시 입력은 0.40달러, 오디오 출력은 64달러다. 번역 모델은 분당 0.034달러, 전사 모델은 분당 0.017달러다. 즉 음성 기능이 더 이상 실험적 부가기능이 아니라, 호출량과 캐시 적중률을 계산해야 하는 운영 비용 단위로 제공되기 시작했다.
경쟁 구도 / 비교
기존 음성 스택은 전문 STT, 별도 LLM, 별도 TTS를 연결하는 조합형 아키텍처가 주류였다. 이 접근은 유연하지만 멀티턴 대화와 동시 번역, 실시간 행동 유도에서는 상태 관리와 지연 누적이 커진다. 반면 단일 realtime 모델은 응답 품질과 행동 일관성을 높일 수 있지만, 벤더 종속성과 세밀한 제어권 축소라는 트레이드오프가 있다.
또한 이번 발표는 음성 모델을 단순 더 사람 같은 목소리 경쟁이 아니라 실시간 reasoning + translation + transcription 묶음으로 재정의했다는 점에서 중요하다. 이는 콜센터, 다국어 회의, 음성 에이전트 제품군 전반의 기준선을 끌어올릴 가능성이 있다.
의미
산업적으로는 음성 AI가 보조 UX에서 핵심 운영 인터페이스로 격상되고 있다. 특히 글로벌 서비스에서는 번역 품질 자체보다 대화 흐름을 끊지 않는 latency와 tool orchestration이 더 큰 차별화 포인트가 될 수 있다.
실무적으로는 음성 제품팀과 플랫폼팀이 초당 비용, 캐시 전략, human escalation, 규제 대응을 함께 설계해야 한다. 앞으로는 음성 지원을 붙일 것인가보다 실시간 음성 런타임을 제품의 기본 인터페이스로 채택할 것인가가 더 중요한 의사결정이 된다.