PickleeAI와 개발에 대한 짧은 노트
홈아티클아카이브검색

끝까지 읽는 글

AI와 개발에 관한 변화 중에서 블로그처럼 오래 읽을 수 있는 글만 골라 정리합니다.

© 2026 Picklee

RSSSitemap

글

2026년 3월 31일수정 2026년 3월 31일원문

GPT-5.4 출시 — 컴퓨터 사용 에이전트로 인간 기준선(OSWorld 72%) 돌파

OpenAI는 3월 29일 GPT-5.4를 출시했다. 컴퓨터 사용(computer use)을 핵심 역량으로 탑재하여 OSWorld-Verified 벤치마크에서 75%를 기록, 인간 평균(72%)을 처음으로 추월했다. 🔍 왜 주목해야 하나 OSWorld는 실제 데스크탑/웹 환경에서 multi-step 작업을 자율 수행하는 능력을 측정하는 벤치마크로, 이전 SOTA가 60~65% 수준에…

AI
모델
OpenAI
트렌드

배경 및 맥락

OpenAI는 2026년 3월 29일 GPT-5.4를 공개했다. GPT-5.2 대비 컴퓨터 사용 능력을 대폭 강화한 버전으로, 단순한 텍스트 생성 AI를 넘어 실제 디지털 환경에서 작업을 수행하는 '디지털 동료(digital coworker)' 포지셔닝을 명확히 했다.

2025년부터 AI 에이전트 경쟁이 본격화되면서, 단순 Q&A 성능이 아닌 실제 컴퓨터 조작 능력이 핵심 변별 요소로 부상했다. Anthropic의 Claude Computer Use, Google의 Project Jarvis 등이 경쟁 중인 상황에서 OpenAI가 OSWorld 벤치마크에서 인간 기준선을 초과한 것은 에이전트 시대의 새로운 이정표다.


핵심 내용

주요 벤치마크 성능:

  • OSWorld-Verified: 75% (인간 평균 72% 초과)
  • SWE-bench Pro (코딩): 57.7%
  • GDPval (지식 업무): 83.0% (인간 전문가 수준 이상)

기술 사양:

  • 컨텍스트 윈도우: 100만 토큰 (GPT-5.2 대비 2배)
  • 환각률: GPT-5.2 대비 33% 감소
  • 컴퓨터 사용 방식: Playwright 기반 코드 생성 + 마우스/키보드 직접 명령 지원

Computer Use 작동 방식:

GPT-5.4는 스크린샷을 시각적으로 인식하고, 클릭/타이핑/폼 작성/스크립트 실행 등의 액션을 자율 수행한다. 각 단계를 사람이 정의할 필요 없이 목표만 제시하면 모델이 계획을 세우고 실행한다.


경쟁 구도 / 비교

모델OSWorld 점수특이사항
GPT-5.475%인간 기준선(72%) 초과
이전 SOTA60~65%(2026년 초 기준)
인간 평균72%기준선

GPT-5.4가 Pro 버전과 Thinking 버전 두 가지로 출시된 점도 주목할 만하다. Thinking 버전은 GDPval 83%를 기록해 경제적으로 가치 있는 태스크에서 인간 전문가 수준 이상의 성능을 보여준다.


의미

'AI가 컴퓨터를 사람보다 잘 쓴다'는 주장이 처음으로 공인된 벤치마크로 검증됐다. 이는 단순한 기술 과시가 아니라, 기업 내 반복적 디지털 업무(데이터 입력, 보고서 작성, 소프트웨어 테스트 등)의 완전 자동화 가능성을 현실로 끌어당기는 변곡점이다. 앞으로 AI 에이전트 플랫폼 경쟁은 벤치마크 점수가 아닌 실제 엔터프라이즈 환경에서의 오류율과 안정성으로 옮겨갈 것이다.

더 읽기

같이 읽어볼 만한 글

전체 글 보기
2026년 5월 6일

GPT-5.5 Instant — 범용 AI 제품 경쟁이 frontier launch보다 기본 모델 운영 품질로 이동

OpenAI는 2026년 5월 5일 ChatGPT의 기본 모델을 GPT-5.5 Instant로 교체한다고 발표했다. 새 모델은 GPT-5.3 Instant 대비 고위험 프롬프트에서 hallucinated claim을 52.5% 줄였고, 사용자가 오류를 지적했던 까다로운 대화에서는 inaccurate claim을 37.3% 줄였으며, chat-latest로도 제공된다. 🔍 왜 주목해야 하나…

2026년 4월 1일

GPT-5.4 출시 — 추론·코딩·에이전트 통합 모델, OSWorld-V 인간 기준선 AI 최초 초과

OpenAI가 3월 5일 GPT-5.4를 출시했다. GPT-5.3 Codex의 코딩 역량을 메인라인 추론 모델에 통합한 것으로, 100만 토큰 컨텍스트 윈도우와 멀티스텝 에이전트 워크플로우 자율 실행 능력을 탑재했다. 실제 데스크톱 생산성 태스크를 시뮬레이션하는 OSWorld-V 벤치마크에서 75%를 기록, 인간 기준선(72.4%)을 AI 최초로 초과했다. 🔍 왜 주목해야 하나…

2026년 4월 1일

OpenAI, 최초 오픈웨이트 모델 gpt-oss-120b 공개 — Apache 2.0, o4-mini 수준 추론 성능

OpenAI가 처음으로 오픈웨이트 모델인 gpt-oss-120b(117B 파라미터, MoE)와 gpt-oss-20b를 Apache 2.0 라이선스로 공개했다. 단일 80GB GPU에서 실행 가능하며, 코딩·수학·툴 사용에서 o4-mini와 동등하거나 일부 초과한다. 🔍 왜 주목해야 하나 OpenAI가 '오픈소스 전략 부재'라는 비판을 받아온 상황에서 이번 출시는 단순한 제품 발표를 넘어…

2026년 3월 31일

OpenAI, $1,200억 역대 최대 평더링 완료 — Amazon $500억 주도, 기업가치 $7,300억 돌파

OpenAI가 Amazon $500억, Nvidia·SoftBank 각 $300억 등으로 구성된 총 $1,200억 평더링 라운드를 마무리했다. Pre-money 기업가치 $7,300억으로, 2026년 AI 산업 내 최대 단일 투자 이벤트다. 🔍 왜 주목해야 하나 $1,200억이라는 규모도 이례적이지만 투자 구조가 더 중요하다. Amazon $500억은 AWS 인프라를 통한 전략적 결합을…