GPT-5.4 출시 — 추론·코딩·에이전트 통합 모델, OSWorld-V 인간 기준선 AI 최초 초과

OpenAI가 3월 5일 GPT-5.4를 출시했다. GPT-5.3 Codex의 코딩 역량을 메인라인 추론 모델에 통합한 것으로, 100만 토큰 컨텍스트 윈도우와 멀티스텝 에이전트 워크플로우 자율 실행 능력을 탑재했다. 실제 데스크톱 생산성 태스크를 시뮬레이션하는 OSWorld-V 벤치마크에서 75%를 기록, 인간 기준선(72.4%)을 AI 최초로 초과했다.

배경 및 맥락

OpenAI는 2025년 하반기부터 모델 라인업이 복잡해지는 문제에 직면했다. 일반 추론용 GPT-5 시리즈, 고급 추론용 o 시리즈, 코딩 특화 Codex 시리즈가 병존하면서 개발자들이 태스크마다 적합한 모델을 선택해야 하는 인지적 부담이 커졌다. GPT-5.4는 GPT-5.3 Codex의 코딩 전문성을 메인라인 모델에 흡수시켜 이 복잡성을 해소하려는 시도다.

핵심 내용

주요 스펙 및 기능:

컨텍스트 윈도우: 100만 토큰
멀티스텝 워크플로우: 소프트웨어 환경 전반에서 자율 실행
코딩: GPT-5.3 Codex 역량 통합
팩추얼 오류: GPT-5.2 대비 개별 클레임 33% 감소, 전체 응답 오류 18% 감소

벤치마크 성과:

OSWorld-V: 75% (인간 기준선 72.4% 최초 초과)
GDPVal: 83.0% (경제적 가치 있는 태스크에서 인간 전문가 수준)

버전 구분: ChatGPT Plus·Team·Pro 사용자에게 GPT-5.4 Thinking 제공, Pro·Enterprise에게 GPT-5.4 Pro 제공.

경쟁 구도 / 비교

모델	컨텍스트	코딩 특화	OSWorld 평가	통합 수준
GPT-5.3 Codex	200K	높음	미발표	코딩 전용
o4-mini	200K	중간	미발표	추론 전용
Claude 3.7 Sonnet	200K	높음	미발표	추론+코딩
GPT-5.4	1M	높음	75% (인간 초과)	추론+코딩+에이전트 통합

의미

OSWorld-V에서 인간 기준선을 넘은 것은 단순한 벤치마크 기록이 아니다. 이 벤치마크는 실제 운영 환경(브라우저, 스프레드시트, 코드 에디터 등)에서 사람이 수행하는 복합 워크플로우를 평가하기 때문에, 결과는 '범용 데스크톱 에이전트'가 이제 상용화 가능한 수준에 도달했음을 의미한다. 100만 토큰 컨텍스트는 RAG 의존도를 낮추고 전체 코드베이스·문서를 인-컨텍스트로 처리하는 아키텍처 패턴을 현실화한다. 프로덕션 AI 시스템 설계 관점에서 '컨텍스트 관리 레이어'의 중요성이 크게 낮아지는 분기점이 될 수 있다.

배경 및 맥락

핵심 내용

주요 스펙 및 기능:

컨텍스트 윈도우: 100만 토큰
멀티스텝 워크플로우: 소프트웨어 환경 전반에서 자율 실행
코딩: GPT-5.3 Codex 역량 통합
팩추얼 오류: GPT-5.2 대비 개별 클레임 33% 감소, 전체 응답 오류 18% 감소

벤치마크 성과:

OSWorld-V: 75% (인간 기준선 72.4% 최초 초과)
GDPVal: 83.0% (경제적 가치 있는 태스크에서 인간 전문가 수준)

버전 구분: ChatGPT Plus·Team·Pro 사용자에게 GPT-5.4 Thinking 제공, Pro·Enterprise에게 GPT-5.4 Pro 제공.

경쟁 구도 / 비교

모델	컨텍스트	코딩 특화	OSWorld 평가	통합 수준
GPT-5.3 Codex	200K	높음	미발표	코딩 전용
o4-mini	200K	중간	미발표	추론 전용
Claude 3.7 Sonnet	200K	높음	미발표	추론+코딩
GPT-5.4	1M	높음	75% (인간 초과)	추론+코딩+에이전트 통합

GPT-5.4 출시 — 추론·코딩·에이전트 통합 모델, OSWorld-V 인간 기준선 AI 최초 초과

배경 및 맥락

핵심 내용

경쟁 구도 / 비교

의미

관련 읽을거리

GPT-5.4 출시 — 추론·코딩·에이전트 통합 모델, OSWorld-V 인간 기준선 AI 최초 초과

배경 및 맥락

핵심 내용

경쟁 구도 / 비교

의미

관련 읽을거리