FEATURE ARTICLE
GPT-5.4 출시 — 추론·코딩·에이전트 통합 모델, OSWorld-V 인간 기준선 AI 최초 초과
📌 핵심 요약 OpenAI가 3월 5일 GPT-5.4를 출시했다. GPT-5.3 Codex의 코딩 역량을 메인라인 추론 모델에 통합한 것으로, 100만 토큰 컨텍스트 윈도우와 멀티스텝 에이전트 워크플로우 자율 실행 능력을 탑재했다. 실제 데스크톱 생산성 태스크를 시뮬레이션하는 OSWorld-V 벤치마크에서 75%를 기록, 인간 기준선(72.4%)을 AI 최초로 초과했다. 🔍 왜 주목해야 하나 OSWorld-V는 단순 코딩이나 수학 문제가 아닌 실제 GUI 환경에서의 복합 업무 수행 능력을 측정하는 벤치마크다. 인간 기준선을 넘었다는 것은 RPA 대체 및 데스크톱 에이전트의 실용화가 이론에서 현실로 넘어옴을 의미한다. 추론·코딩·에이전트를 분리해 사용하던 방식에서 단일 모델로의 통합은 프로덕션 아키텍처를 단순화하는 직접적 변화다. ⚡ 실무 시사점 100만 토큰 컨텍스트로 대형 코드베이스 전체를 단일 프롬프트에서 처리하는 것이 현실적 선택지가 됐다. OSWorld 수준의 성능을 활용해 반복 업무 자동화·RPA 대체를 검토하는 팀이라면 GPT-5.4 기반 PoC를 시작할 시점이다.
배경 및 맥락
OpenAI는 2025년 하반기부터 모델 라인업이 복잡해지는 문제에 직면했다. 일반 추론용 GPT-5 시리즈, 고급 추론용 o 시리즈, 코딩 특화 Codex 시리즈가 병존하면서 개발자들이 태스크마다 적합한 모델을 선택해야 하는 인지적 부담이 커졌다. GPT-5.4는 GPT-5.3 Codex의 코딩 전문성을 메인라인 모델에 흡수시켜 이 복잡성을 해소하려는 시도다.
핵심 내용
주요 스펙 및 기능:
- 컨텍스트 윈도우: 100만 토큰
- 멀티스텝 워크플로우: 소프트웨어 환경 전반에서 자율 실행
- 코딩: GPT-5.3 Codex 역량 통합
- 팩추얼 오류: GPT-5.2 대비 개별 클레임 33% 감소, 전체 응답 오류 18% 감소
벤치마크 성과:
- OSWorld-V: 75% (인간 기준선 72.4% 최초 초과)
- GDPVal: 83.0% (경제적 가치 있는 태스크에서 인간 전문가 수준)
버전 구분: ChatGPT Plus·Team·Pro 사용자에게 GPT-5.4 Thinking 제공, Pro·Enterprise에게 GPT-5.4 Pro 제공.
경쟁 구도 / 비교
| 모델 | 컨텍스트 | 코딩 특화 | OSWorld 평가 | 통합 수준 |
|---|---|---|---|---|
| GPT-5.3 Codex | 200K | 높음 | 미발표 | 코딩 전용 |
| o4-mini | 200K | 중간 | 미발표 | 추론 전용 |
| Claude 3.7 Sonnet | 200K | 높음 | 미발표 | 추론+코딩 |
| GPT-5.4 | 1M | 높음 | 75% (인간 초과) | 추론+코딩+에이전트 통합 |
의미
OSWorld-V에서 인간 기준선을 넘은 것은 단순한 벤치마크 기록이 아니다. 이 벤치마크는 실제 운영 환경(브라우저, 스프레드시트, 코드 에디터 등)에서 사람이 수행하는 복합 워크플로우를 평가하기 때문에, 결과는 '범용 데스크톱 에이전트'가 이제 상용화 가능한 수준에 도달했음을 의미한다. 100만 토큰 컨텍스트는 RAG 의존도를 낮추고 전체 코드베이스·문서를 인-컨텍스트로 처리하는 아키텍처 패턴을 현실화한다. 프로덕션 AI 시스템 설계 관점에서 '컨텍스트 관리 레이어'의 중요성이 크게 낮아지는 분기점이 될 수 있다.