PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 5월 7일

Advancing voice intelligence with new models in the API — voice AI 경쟁이 STT/TTS를 넘어 realtime agent runtime으로 이동

OpenAI는 2026년 5월 7일 Realtime API용 새 음성 모델 3종 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper를 공개했다. GPT-Realtime-2는 컨텍스트 윈도를 32K에서 128K로 늘리고 병렬 tool call, 조정 가능한 reasoning effort, 더 강한 recovery behavior를…

본문 읽기원문 보기

발행일

2026년 5월 7일

업데이트

2026년 5월 7일

주제

AI
OpenAI
API
트렌드
원문 보기

배경 및 맥락

그동안 voice AI는 음성을 텍스트로 바꾸는 STT, 답변을 읽어주는 TTS, 그리고 별도 LLM을 조합하는 파이프라인 성격이 강했다. 이 구조는 빠른 프로토타입에는 유리했지만, 대화 중 맥락 유지, 도구 호출, 다국어 전환, 오류 복구를 한 세션 안에서 자연스럽게 처리하기에는 한계가 있었다.

실제 서비스에서는 사용자가 중간에 말을 바꾸고, 외부 도구를 호출해야 하며, 긴 대화 맥락을 유지해야 한다. OpenAI의 이번 발표는 voice layer를 더 이상 주변 기능이 아니라 에이전트 실행 표면으로 다루기 시작했다는 신호다.


핵심 내용

OpenAI는 2026년 5월 7일 Realtime API에 세 가지 모델을 추가했다. GPT-Realtime-2는 GPT-5급 reasoning을 음성 세션에 가져오며, context window를 32K에서 128K로 확장했다. 병렬 tool calls, tool transparency용 preamble, 조정 가능한 reasoning effort, 더 나은 interruption/실패 복구가 포함된다. 오디오 평가에서는 Big Bench Audio에서 15.2% 향상, Audio MultiChallenge에서 13.8% 향상을 제시했다.

GPT-Realtime-Translate는 70개 이상 입력 언어를 13개 출력 언어로 실시간 번역하고, GPT-Realtime-Whisper는 스트리밍 전사에 맞춘 저지연 STT를 제공한다. 가격도 구체적으로 공개됐다. GPT-Realtime-2는 오디오 입력 1M 토큰당 32달러, 출력 1M 토큰당 64달러이며, Translate와 Whisper는 각각 분당 0.034달러, 0.017달러다.


경쟁 구도 / 비교

기존 음성 스택은 STT 모델, 텍스트 LLM, TTS 모델을 느슨하게 묶는 방식이 일반적이었다. 이 경우 각 단계의 지연과 오류가 누적되고, tool call이나 다중 언어 전환은 애플리케이션 레이어가 별도로 메워야 했다. 반면 이번 구성은 reasoning, translation, transcription을 realtime 세션 중심으로 재패키징해 voice product를 agent workflow에 직접 연결한다.

즉 경쟁 포인트가 더 자연스러운 발화 합성보다, 대화 중 실제 작업을 얼마나 안정적으로 수행하느냐로 이동하고 있다. voice는 이제 UI 채널이 아니라 action surface다.


의미

산업적으로는 음성 인터페이스가 다시 주목받는 것이 아니라, 에이전트 시대의 기본 입력/출력 계층으로 재편되는 흐름에 가깝다. 특히 고객지원, 여행, 의료, 현장업무처럼 손이 자유롭지 않은 환경에서는 voice-first agent가 텍스트 챗보다 더 빠르게 확산될 수 있다.

실무적으로는 제품팀이 latency budget, session memory, tool call guardrail, 다국어 품질, 음성 세션 비용을 한 번에 관리하는 운영 모델을 준비해야 한다. 향후 voice roadmap은 STT 정확도보다 workflow completion rate로 평가될 가능성이 크다.

이어 읽기

관련 읽을거리

전체 보기
2026년 6월 19일ChatGPT Enterprise spend controls — AI 도입의 병목이 모델 접근에서 비용 거버넌스로 이동OpenAI는 2026년 6월 18일 ChatGPT Enterprise에 credit usage analytics와 업데이트된 spend controls를 도입해 관리자에게 사용자·제품·모델별 사용량과 비용 가시성을 제공한다고 발표했다.2026년 4월 1일Linux Foundation, MCP 기부 및 AAIF 출범 — AI 에이전트 표준화의 중립 거버넌스 시대 개막Linux Foundation이 Anthropic의 MCP, Block의 goose, OpenAI의 AGENTS.md를 함칠 에이전틱 AI 파운데이션(AAIF)을 출범했다. AWS, Google, Microsoft, Cloudflare 등이 플래티덧 멤버로 참여하며, MCP는 특정 기업 소유가 아닌 인터넷 인프라 수준의 중립 표준 프로토콜로 전환된다.2026년 4월 1일GPT-5.4 출시 — 추론·코딩·에이전트 통합 모델, OSWorld-V 인간 기준선 AI 최초 초과OpenAI가 3월 5일 GPT-5.4를 출시했다. GPT-5.3 Codex의 코딩 역량을 메인라인 추론 모델에 통합한 것으로, 100만 토큰 컨텍스트 윈도우와 멀티스텝 에이전트 워크플로우 자율 실행 능력을 탑재했다. 실제 데스크톱 생산성 태스크를 시뮬레이션하는 OSWorld-V 벤치마크에서 75%를 기록, 인간 기준선(72.4%)을 AI 최초로 초과했다.2026년 4월 1일OpenAI, 최초 오픈웨이트 모델 gpt-oss-120b 공개 — Apache 2.0, o4-mini 수준 추론 성능OpenAI가 처음으로 오픈웨이트 모델인 gpt-oss-120b(117B 파라미터, MoE)와 gpt-oss-20b를 Apache 2.0 라이선스로 공개했다. 단일 80GB GPU에서 실행 가능하며, 코딩·수학·툴 사용에서 o4-mini와 동등하거나 일부 초과한다.