PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 5월 17일

OpenAI realtime voice models — 음성 인터페이스가 STT/TTS를 넘어 실시간 reasoning·translation 런타임으로 진화

OpenAI는 2026년 5월 7일 API용 음성 모델 3종을 발표했다. GPT-Realtime-2는 GPT-5급 추론을 실시간 음성 상호작용에 넣었고, GPT-Realtime-Translate는 70개 이상 입력 언어를 13개 출력 언어로 동시 통역하며, GPT-Realtime-Whisper는 저지연 전사를 제공한다.

본문 읽기원문 보기

발행일

2026년 5월 17일

업데이트

2026년 5월 17일

주제

AI
OpenAI
API
원문 보기

배경 및 맥락

음성 인터페이스는 그동안 말을 텍스트로 바꾸는 STT, 의도를 분류하는 NLU, 답변을 읽어주는 TTS를 이어 붙인 파이프라인 구조가 일반적이었다. 이 방식은 구성요소를 교체하기 쉽지만, 대화 중간의 추론과 문맥 유지, 다국어 응답, 도구 호출을 동시에 다루기엔 지연과 복잡도가 빠르게 커진다.

이번 OpenAI 발표는 그 파이프라인을 모델 중심 런타임으로 압축하려는 시도다. 음성이 단순 입출력 채널이 아니라 reasoning과 action의 주 인터페이스가 되면, 제품 설계의 중심도 프롬프트 엔지니어링보다 turn-level latency, barge-in 처리, fallback 정책으로 옮겨간다.


핵심 내용

OpenAI는 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper를 Realtime API에 제공한다고 밝혔다. GPT-Realtime-2는 GPT-5급 추론을 바탕으로 더 복잡한 요청을 음성 대화 중 처리하도록 설계됐고, GPT-Realtime-Translate는 70개 이상 입력 언어를 13개 출력 언어로 실시간 번역한다. GPT-Realtime-Whisper는 저지연 전사 모델로 제시됐다.

가격도 구체적이다. GPT-Realtime-2는 오디오 입력 100만 토큰당 32달러, 캐시 입력은 0.40달러, 오디오 출력은 64달러다. 번역 모델은 분당 0.034달러, 전사 모델은 분당 0.017달러다. 즉 음성 기능이 더 이상 실험적 부가기능이 아니라, 호출량과 캐시 적중률을 계산해야 하는 운영 비용 단위로 제공되기 시작했다.


경쟁 구도 / 비교

기존 음성 스택은 전문 STT, 별도 LLM, 별도 TTS를 연결하는 조합형 아키텍처가 주류였다. 이 접근은 유연하지만 멀티턴 대화와 동시 번역, 실시간 행동 유도에서는 상태 관리와 지연 누적이 커진다. 반면 단일 realtime 모델은 응답 품질과 행동 일관성을 높일 수 있지만, 벤더 종속성과 세밀한 제어권 축소라는 트레이드오프가 있다.

또한 이번 발표는 음성 모델을 단순 더 사람 같은 목소리 경쟁이 아니라 실시간 reasoning + translation + transcription 묶음으로 재정의했다는 점에서 중요하다. 이는 콜센터, 다국어 회의, 음성 에이전트 제품군 전반의 기준선을 끌어올릴 가능성이 있다.


의미

산업적으로는 음성 AI가 보조 UX에서 핵심 운영 인터페이스로 격상되고 있다. 특히 글로벌 서비스에서는 번역 품질 자체보다 대화 흐름을 끊지 않는 latency와 tool orchestration이 더 큰 차별화 포인트가 될 수 있다.

실무적으로는 음성 제품팀과 플랫폼팀이 초당 비용, 캐시 전략, human escalation, 규제 대응을 함께 설계해야 한다. 앞으로는 음성 지원을 붙일 것인가보다 실시간 음성 런타임을 제품의 기본 인터페이스로 채택할 것인가가 더 중요한 의사결정이 된다.

이어 읽기

관련 읽을거리

전체 보기
2026년 6월 19일ChatGPT Enterprise spend controls — AI 도입의 병목이 모델 접근에서 비용 거버넌스로 이동OpenAI는 2026년 6월 18일 ChatGPT Enterprise에 credit usage analytics와 업데이트된 spend controls를 도입해 관리자에게 사용자·제품·모델별 사용량과 비용 가시성을 제공한다고 발표했다.2026년 5월 13일OpenAI Daybreak — AI 코딩 보안이 사후 점검에서 지속적 cyber defense control plane으로 이동OpenAI는 2026년 5월 12일 무렵 공개된 Daybreak 페이지에서 Codex 기반의 cyber defense 구상을 제품 표면으로 끌어올렸다. GPT-5.5, GPT-5.5 with Trusted Access for Cyber, GPT-5.5-Cyber의 3단계 접근 모델과 함께 secure code review, patch validation, dependency risk…2026년 5월 7일Advancing voice intelligence with new models in the API — voice AI 경쟁이 STT/TTS를 넘어 realtime agent runtime으로 이동OpenAI는 2026년 5월 7일 Realtime API용 새 음성 모델 3종 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper를 공개했다. GPT-Realtime-2는 컨텍스트 윈도를 32K에서 128K로 늘리고 병렬 tool call, 조정 가능한 reasoning effort, 더 강한 recovery behavior를…2026년 4월 1일Linux Foundation, MCP 기부 및 AAIF 출범 — AI 에이전트 표준화의 중립 거버넌스 시대 개막Linux Foundation이 Anthropic의 MCP, Block의 goose, OpenAI의 AGENTS.md를 함칠 에이전틱 AI 파운데이션(AAIF)을 출범했다. AWS, Google, Microsoft, Cloudflare 등이 플래티덧 멤버로 참여하며, MCP는 특정 기업 소유가 아닌 인터넷 인프라 수준의 중립 표준 프로토콜로 전환된다.