Curated AI Magazine

PICKLEE

AI Field Notes For Builders

FEATURE ARTICLE

GPT-5.4 출시 — 컴퓨터 사용 에이전트로 인간 기준선(OSWorld 72%) 돌파

📌 핵심 요약 OpenAI는 3월 29일 GPT-5.4를 출시했다. 컴퓨터 사용(computer use)을 핵심 역량으로 탑재하여 OSWorld-Verified 벤치마크에서 75%를 기록, 인간 평균(72%)을 처음으로 추월했다. 🔍 왜 주목해야 하나 OSWorld는 실제 데스크탑/웹 환경에서 multi-step 작업을 자율 수행하는 능력을 측정하는 벤치마크로, 이전 SOTA가 60~65% 수준에 머물렀다는 점에서 이번 75%는 단순한 수치 상승이 아니라 범주 전환(category shift)이다. SWE-bench Pro(코딩) 57.7%, GDPval(지식 업무) 83%와 결합하면 GPT-5.4는 코딩·컴퓨터 조작·전문 지식 세 영역 모두에서 프론티어 수준을 달성한 최초의 모델이다. 컨텍스트 윈도우도 100만 토큰으로 두 배 확장됐고 환각률은 GPT-5.2 대비 33% 감소했다. ⚡ 실무 시사점 RPA(로봇 프로세스 자동화)와 내부 업무 자동화 파이프라인을 구성 중인 팀이라면 GPT-5.4 computer use API를 파일럿 평가 대상으로 즉시 추가해야 한다. 특히 Playwright 기반 브라우저 자동화 워크플로우와의 통합 가능성이 크게 높아졌다.

2026년 3월 31일수정 2026년 3월 31일원문 링크

배경 및 맥락

OpenAI는 2026년 3월 29일 GPT-5.4를 공개했다. GPT-5.2 대비 컴퓨터 사용 능력을 대폭 강화한 버전으로, 단순한 텍스트 생성 AI를 넘어 실제 디지털 환경에서 작업을 수행하는 '디지털 동료(digital coworker)' 포지셔닝을 명확히 했다.

2025년부터 AI 에이전트 경쟁이 본격화되면서, 단순 Q&A 성능이 아닌 실제 컴퓨터 조작 능력이 핵심 변별 요소로 부상했다. Anthropic의 Claude Computer Use, Google의 Project Jarvis 등이 경쟁 중인 상황에서 OpenAI가 OSWorld 벤치마크에서 인간 기준선을 초과한 것은 에이전트 시대의 새로운 이정표다.


핵심 내용

주요 벤치마크 성능:

  • OSWorld-Verified: 75% (인간 평균 72% 초과)
  • SWE-bench Pro (코딩): 57.7%
  • GDPval (지식 업무): 83.0% (인간 전문가 수준 이상)

기술 사양:

  • 컨텍스트 윈도우: 100만 토큰 (GPT-5.2 대비 2배)
  • 환각률: GPT-5.2 대비 33% 감소
  • 컴퓨터 사용 방식: Playwright 기반 코드 생성 + 마우스/키보드 직접 명령 지원

Computer Use 작동 방식:

GPT-5.4는 스크린샷을 시각적으로 인식하고, 클릭/타이핑/폼 작성/스크립트 실행 등의 액션을 자율 수행한다. 각 단계를 사람이 정의할 필요 없이 목표만 제시하면 모델이 계획을 세우고 실행한다.


경쟁 구도 / 비교

모델OSWorld 점수특이사항
GPT-5.475%인간 기준선(72%) 초과
이전 SOTA60~65%(2026년 초 기준)
인간 평균72%기준선

GPT-5.4가 Pro 버전과 Thinking 버전 두 가지로 출시된 점도 주목할 만하다. Thinking 버전은 GDPval 83%를 기록해 경제적으로 가치 있는 태스크에서 인간 전문가 수준 이상의 성능을 보여준다.


의미

'AI가 컴퓨터를 사람보다 잘 쓴다'는 주장이 처음으로 공인된 벤치마크로 검증됐다. 이는 단순한 기술 과시가 아니라, 기업 내 반복적 디지털 업무(데이터 입력, 보고서 작성, 소프트웨어 테스트 등)의 완전 자동화 가능성을 현실로 끌어당기는 변곡점이다. 앞으로 AI 에이전트 플랫폼 경쟁은 벤치마크 점수가 아닌 실제 엔터프라이즈 환경에서의 오류율과 안정성으로 옮겨갈 것이다.

RELATED

관련 글

전체 보기

RE-ENTRY

최신 글 재진입