GPT-5.4 출시 — 컴퓨터 사용 에이전트로 인간 기준선(OSWorld 72%) 돌파

배경 및 맥락

OpenAI는 2026년 3월 29일 GPT-5.4를 공개했다. GPT-5.2 대비 컴퓨터 사용 능력을 대폭 강화한 버전으로, 단순한 텍스트 생성 AI를 넘어 실제 디지털 환경에서 작업을 수행하는 '디지털 동료(digital coworker)' 포지셔닝을 명확히 했다.

2025년부터 AI 에이전트 경쟁이 본격화되면서, 단순 Q&A 성능이 아닌 실제 컴퓨터 조작 능력이 핵심 변별 요소로 부상했다. Anthropic의 Claude Computer Use, Google의 Project Jarvis 등이 경쟁 중인 상황에서 OpenAI가 OSWorld 벤치마크에서 인간 기준선을 초과한 것은 에이전트 시대의 새로운 이정표다.

핵심 내용

주요 벤치마크 성능:

OSWorld-Verified: 75% (인간 평균 72% 초과)
SWE-bench Pro (코딩): 57.7%
GDPval (지식 업무): 83.0% (인간 전문가 수준 이상)

기술 사양:

컨텍스트 윈도우: 100만 토큰 (GPT-5.2 대비 2배)
환각률: GPT-5.2 대비 33% 감소
컴퓨터 사용 방식: Playwright 기반 코드 생성 + 마우스/키보드 직접 명령 지원

Computer Use 작동 방식:

GPT-5.4는 스크린샷을 시각적으로 인식하고, 클릭/타이핑/폼 작성/스크립트 실행 등의 액션을 자율 수행한다. 각 단계를 사람이 정의할 필요 없이 목표만 제시하면 모델이 계획을 세우고 실행한다.

경쟁 구도 / 비교

모델	OSWorld 점수	특이사항
GPT-5.4	75%	인간 기준선(72%) 초과
이전 SOTA	60~65%	(2026년 초 기준)
인간 평균	72%	기준선

GPT-5.4가 Pro 버전과 Thinking 버전 두 가지로 출시된 점도 주목할 만하다. Thinking 버전은 GDPval 83%를 기록해 경제적으로 가치 있는 태스크에서 인간 전문가 수준 이상의 성능을 보여준다.

의미

'AI가 컴퓨터를 사람보다 잘 쓴다'는 주장이 처음으로 공인된 벤치마크로 검증됐다. 이는 단순한 기술 과시가 아니라, 기업 내 반복적 디지털 업무(데이터 입력, 보고서 작성, 소프트웨어 테스트 등)의 완전 자동화 가능성을 현실로 끌어당기는 변곡점이다. 앞으로 AI 에이전트 플랫폼 경쟁은 벤치마크 점수가 아닌 실제 엔터프라이즈 환경에서의 오류율과 안정성으로 옮겨갈 것이다.

배경 및 맥락

핵심 내용

주요 벤치마크 성능:

OSWorld-Verified: 75% (인간 평균 72% 초과)
SWE-bench Pro (코딩): 57.7%
GDPval (지식 업무): 83.0% (인간 전문가 수준 이상)

기술 사양:

컨텍스트 윈도우: 100만 토큰 (GPT-5.2 대비 2배)
환각률: GPT-5.2 대비 33% 감소
컴퓨터 사용 방식: Playwright 기반 코드 생성 + 마우스/키보드 직접 명령 지원

Computer Use 작동 방식:

경쟁 구도 / 비교

모델	OSWorld 점수	특이사항
GPT-5.4	75%	인간 기준선(72%) 초과
이전 SOTA	60~65%	(2026년 초 기준)
인간 평균	72%	기준선

GPT-5.4 출시 — 컴퓨터 사용 에이전트로 인간 기준선(OSWorld 72%) 돌파

배경 및 맥락

핵심 내용

경쟁 구도 / 비교

의미

관련 읽을거리

GPT-5.4 출시 — 컴퓨터 사용 에이전트로 인간 기준선(OSWorld 72%) 돌파

배경 및 맥락

핵심 내용

경쟁 구도 / 비교

의미

관련 읽을거리