PickleeAI와 개발에 대한 짧은 노트
홈아티클아카이브검색

끝까지 읽는 글

AI와 개발에 관한 변화 중에서 블로그처럼 오래 읽을 수 있는 글만 골라 정리합니다.

© 2026 Picklee

RSSSitemap

글

2026년 5월 7일수정 2026년 5월 7일원문

Advancing voice intelligence with new models in the API — voice AI 경쟁이 STT/TTS를 넘어 realtime agent runtime으로 이동

OpenAI는 2026년 5월 7일 Realtime API용 새 음성 모델 3종 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper를 공개했다. GPT-Realtime-2는 컨텍스트 윈도를 32K에서 128K로 늘리고 병렬 tool call, 조정 가능한 reasoning effort, 더 강한 recovery behavior를…

AI
OpenAI
API
트렌드

배경 및 맥락

그동안 voice AI는 음성을 텍스트로 바꾸는 STT, 답변을 읽어주는 TTS, 그리고 별도 LLM을 조합하는 파이프라인 성격이 강했다. 이 구조는 빠른 프로토타입에는 유리했지만, 대화 중 맥락 유지, 도구 호출, 다국어 전환, 오류 복구를 한 세션 안에서 자연스럽게 처리하기에는 한계가 있었다.

실제 서비스에서는 사용자가 중간에 말을 바꾸고, 외부 도구를 호출해야 하며, 긴 대화 맥락을 유지해야 한다. OpenAI의 이번 발표는 voice layer를 더 이상 주변 기능이 아니라 에이전트 실행 표면으로 다루기 시작했다는 신호다.


핵심 내용

OpenAI는 2026년 5월 7일 Realtime API에 세 가지 모델을 추가했다. GPT-Realtime-2는 GPT-5급 reasoning을 음성 세션에 가져오며, context window를 32K에서 128K로 확장했다. 병렬 tool calls, tool transparency용 preamble, 조정 가능한 reasoning effort, 더 나은 interruption/실패 복구가 포함된다. 오디오 평가에서는 Big Bench Audio에서 15.2% 향상, Audio MultiChallenge에서 13.8% 향상을 제시했다.

GPT-Realtime-Translate는 70개 이상 입력 언어를 13개 출력 언어로 실시간 번역하고, GPT-Realtime-Whisper는 스트리밍 전사에 맞춘 저지연 STT를 제공한다. 가격도 구체적으로 공개됐다. GPT-Realtime-2는 오디오 입력 1M 토큰당 32달러, 출력 1M 토큰당 64달러이며, Translate와 Whisper는 각각 분당 0.034달러, 0.017달러다.


경쟁 구도 / 비교

기존 음성 스택은 STT 모델, 텍스트 LLM, TTS 모델을 느슨하게 묶는 방식이 일반적이었다. 이 경우 각 단계의 지연과 오류가 누적되고, tool call이나 다중 언어 전환은 애플리케이션 레이어가 별도로 메워야 했다. 반면 이번 구성은 reasoning, translation, transcription을 realtime 세션 중심으로 재패키징해 voice product를 agent workflow에 직접 연결한다.

즉 경쟁 포인트가 더 자연스러운 발화 합성보다, 대화 중 실제 작업을 얼마나 안정적으로 수행하느냐로 이동하고 있다. voice는 이제 UI 채널이 아니라 action surface다.


의미

산업적으로는 음성 인터페이스가 다시 주목받는 것이 아니라, 에이전트 시대의 기본 입력/출력 계층으로 재편되는 흐름에 가깝다. 특히 고객지원, 여행, 의료, 현장업무처럼 손이 자유롭지 않은 환경에서는 voice-first agent가 텍스트 챗보다 더 빠르게 확산될 수 있다.

실무적으로는 제품팀이 latency budget, session memory, tool call guardrail, 다국어 품질, 음성 세션 비용을 한 번에 관리하는 운영 모델을 준비해야 한다. 향후 voice roadmap은 STT 정확도보다 workflow completion rate로 평가될 가능성이 크다.

더 읽기

같이 읽어볼 만한 글

전체 글 보기
2026년 4월 1일

Linux Foundation, MCP 기부 및 AAIF 출범 — AI 에이전트 표준화의 중립 거버넌스 시대 개막

Linux Foundation이 Anthropic의 MCP, Block의 goose, OpenAI의 AGENTS.md를 함칠 에이전틱 AI 파운데이션(AAIF)을 출범했다. AWS, Google, Microsoft, Cloudflare 등이 플래티덧 멤버로 참여하며, MCP는 특정 기업 소유가 아닌 인터넷 인프라 수준의 중립 표준 프로토콜로 전환된다. 🔍 왜 주목해야 하나…

2026년 4월 1일

GPT-5.4 출시 — 추론·코딩·에이전트 통합 모델, OSWorld-V 인간 기준선 AI 최초 초과

OpenAI가 3월 5일 GPT-5.4를 출시했다. GPT-5.3 Codex의 코딩 역량을 메인라인 추론 모델에 통합한 것으로, 100만 토큰 컨텍스트 윈도우와 멀티스텝 에이전트 워크플로우 자율 실행 능력을 탑재했다. 실제 데스크톱 생산성 태스크를 시뮬레이션하는 OSWorld-V 벤치마크에서 75%를 기록, 인간 기준선(72.4%)을 AI 최초로 초과했다. 🔍 왜 주목해야 하나…

2026년 4월 1일

OpenAI, 최초 오픈웨이트 모델 gpt-oss-120b 공개 — Apache 2.0, o4-mini 수준 추론 성능

OpenAI가 처음으로 오픈웨이트 모델인 gpt-oss-120b(117B 파라미터, MoE)와 gpt-oss-20b를 Apache 2.0 라이선스로 공개했다. 단일 80GB GPU에서 실행 가능하며, 코딩·수학·툴 사용에서 o4-mini와 동등하거나 일부 초과한다. 🔍 왜 주목해야 하나 OpenAI가 '오픈소스 전략 부재'라는 비판을 받아온 상황에서 이번 출시는 단순한 제품 발표를 넘어…

2026년 5월 7일

Secret scanning with GitHub MCP Server is now generally available — AI 코딩 보안이 PR 이후 탐지에서 pre-commit agent guardrail로 이동

GitHub는 2026년 5월 5일 GitHub MCP Server의 secret scanning 기능이 general availability에 들어갔다고 발표했다. 이제 MCP 호환 AI 코딩 에이전트와 IDE가 커밋이나 PR 전에 노출된 secret을 직접 스캔할 수 있고, 기존 push protection customization도 그대로 존중한다. 🔍 왜 주목해야 하나 이 변화는…