PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 3월 31일

GPT-5.4 출시 — 컴퓨터 사용 에이전트로 인간 기준선(OSWorld 72%) 돌파

OpenAI는 3월 29일 GPT-5.4를 출시했다. 컴퓨터 사용(computer use)을 핵심 역량으로 탑재하여 OSWorld-Verified 벤치마크에서 75%를 기록, 인간 평균(72%)을 처음으로 추월했다.

본문 읽기원문 보기

발행일

2026년 3월 31일

업데이트

2026년 3월 31일

주제

AI
모델
OpenAI
트렌드
원문 보기

배경 및 맥락

OpenAI는 2026년 3월 29일 GPT-5.4를 공개했다. GPT-5.2 대비 컴퓨터 사용 능력을 대폭 강화한 버전으로, 단순한 텍스트 생성 AI를 넘어 실제 디지털 환경에서 작업을 수행하는 '디지털 동료(digital coworker)' 포지셔닝을 명확히 했다.

2025년부터 AI 에이전트 경쟁이 본격화되면서, 단순 Q&A 성능이 아닌 실제 컴퓨터 조작 능력이 핵심 변별 요소로 부상했다. Anthropic의 Claude Computer Use, Google의 Project Jarvis 등이 경쟁 중인 상황에서 OpenAI가 OSWorld 벤치마크에서 인간 기준선을 초과한 것은 에이전트 시대의 새로운 이정표다.


핵심 내용

주요 벤치마크 성능:

  • OSWorld-Verified: 75% (인간 평균 72% 초과)
  • SWE-bench Pro (코딩): 57.7%
  • GDPval (지식 업무): 83.0% (인간 전문가 수준 이상)

기술 사양:

  • 컨텍스트 윈도우: 100만 토큰 (GPT-5.2 대비 2배)
  • 환각률: GPT-5.2 대비 33% 감소
  • 컴퓨터 사용 방식: Playwright 기반 코드 생성 + 마우스/키보드 직접 명령 지원

Computer Use 작동 방식:

GPT-5.4는 스크린샷을 시각적으로 인식하고, 클릭/타이핑/폼 작성/스크립트 실행 등의 액션을 자율 수행한다. 각 단계를 사람이 정의할 필요 없이 목표만 제시하면 모델이 계획을 세우고 실행한다.


경쟁 구도 / 비교

모델OSWorld 점수특이사항
GPT-5.475%인간 기준선(72%) 초과
이전 SOTA60~65%(2026년 초 기준)
인간 평균72%기준선

GPT-5.4가 Pro 버전과 Thinking 버전 두 가지로 출시된 점도 주목할 만하다. Thinking 버전은 GDPval 83%를 기록해 경제적으로 가치 있는 태스크에서 인간 전문가 수준 이상의 성능을 보여준다.


의미

'AI가 컴퓨터를 사람보다 잘 쓴다'는 주장이 처음으로 공인된 벤치마크로 검증됐다. 이는 단순한 기술 과시가 아니라, 기업 내 반복적 디지털 업무(데이터 입력, 보고서 작성, 소프트웨어 테스트 등)의 완전 자동화 가능성을 현실로 끌어당기는 변곡점이다. 앞으로 AI 에이전트 플랫폼 경쟁은 벤치마크 점수가 아닌 실제 엔터프라이즈 환경에서의 오류율과 안정성으로 옮겨갈 것이다.

이어 읽기

관련 읽을거리

전체 보기
2026년 6월 27일GPT-5.6 Sol preview - frontier model releases become policy-gated infrastructure decisionsOpenAI는 2026년 6월 26일 GPT-5.6 series의 limited preview를 발표하며 Sol, Terra, Luna 3개 tier와 새로운 max reasoning effort, subagent 기반 ultra mode를 공개했다. Sol은 Terminal-Bench 2.1, GeneBench v1, ExploitBench, ExploitGym 같은 장시간…2026년 6월 19일OpenAI AI chemist — GPT-5.4가 자동화 실험실과 결합해 Chan-Lam 수율을 개선OpenAI와 Molecule.one은 2026년 6월 17일 GPT-5.4를 Maria AI/Lab과 연결한 near-autonomous chemistry workflow가 primary sulfonamide Chan-Lam coupling에서 TEMPO 계열 additive를 찾아 수율을 개선했다고 발표했다. Maria Lab은 OAI-M1-03에서 10,080개 반응을 실행했고, 최적…2026년 5월 6일GPT-5.5 Instant — 범용 AI 제품 경쟁이 frontier launch보다 기본 모델 운영 품질로 이동OpenAI는 2026년 5월 5일 ChatGPT의 기본 모델을 GPT-5.5 Instant로 교체한다고 발표했다. 새 모델은 GPT-5.3 Instant 대비 고위험 프롬프트에서 hallucinated claim을 52.5% 줄였고, 사용자가 오류를 지적했던 까다로운 대화에서는 inaccurate claim을 37.3% 줄였으며, chat-latest로도 제공된다.2026년 4월 23일ChatGPT Images 2.0ChatGPT Images 2.0 소식의 핵심을 빠르게 정리하면, AI 모델 흐름에서 다음 변화를 미리 읽게 해주는 이슈입니다. 이 글에서는 사실 관계와 맥락, 그리고 실무자가 바로 참고할 포인트를 뉴스레터 톤으로 전달합니다.