PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 4월 1일

GPT-5.4 출시 — 추론·코딩·에이전트 통합 모델, OSWorld-V 인간 기준선 AI 최초 초과

OpenAI가 3월 5일 GPT-5.4를 출시했다. GPT-5.3 Codex의 코딩 역량을 메인라인 추론 모델에 통합한 것으로, 100만 토큰 컨텍스트 윈도우와 멀티스텝 에이전트 워크플로우 자율 실행 능력을 탑재했다. 실제 데스크톱 생산성 태스크를 시뮬레이션하는 OSWorld-V 벤치마크에서 75%를 기록, 인간 기준선(72.4%)을 AI 최초로 초과했다.

본문 읽기원문 보기

발행일

2026년 4월 1일

업데이트

2026년 4월 1일

주제

AI
모델
OpenAI
트렌드
API
원문 보기

배경 및 맥락

OpenAI는 2025년 하반기부터 모델 라인업이 복잡해지는 문제에 직면했다. 일반 추론용 GPT-5 시리즈, 고급 추론용 o 시리즈, 코딩 특화 Codex 시리즈가 병존하면서 개발자들이 태스크마다 적합한 모델을 선택해야 하는 인지적 부담이 커졌다. GPT-5.4는 GPT-5.3 Codex의 코딩 전문성을 메인라인 모델에 흡수시켜 이 복잡성을 해소하려는 시도다.


핵심 내용

주요 스펙 및 기능:

  • 컨텍스트 윈도우: 100만 토큰
  • 멀티스텝 워크플로우: 소프트웨어 환경 전반에서 자율 실행
  • 코딩: GPT-5.3 Codex 역량 통합
  • 팩추얼 오류: GPT-5.2 대비 개별 클레임 33% 감소, 전체 응답 오류 18% 감소

벤치마크 성과:

  • OSWorld-V: 75% (인간 기준선 72.4% 최초 초과)
  • GDPVal: 83.0% (경제적 가치 있는 태스크에서 인간 전문가 수준)

버전 구분: ChatGPT Plus·Team·Pro 사용자에게 GPT-5.4 Thinking 제공, Pro·Enterprise에게 GPT-5.4 Pro 제공.


경쟁 구도 / 비교

모델컨텍스트코딩 특화OSWorld 평가통합 수준
GPT-5.3 Codex200K높음미발표코딩 전용
o4-mini200K중간미발표추론 전용
Claude 3.7 Sonnet200K높음미발표추론+코딩
GPT-5.41M높음75% (인간 초과)추론+코딩+에이전트 통합

의미

OSWorld-V에서 인간 기준선을 넘은 것은 단순한 벤치마크 기록이 아니다. 이 벤치마크는 실제 운영 환경(브라우저, 스프레드시트, 코드 에디터 등)에서 사람이 수행하는 복합 워크플로우를 평가하기 때문에, 결과는 '범용 데스크톱 에이전트'가 이제 상용화 가능한 수준에 도달했음을 의미한다. 100만 토큰 컨텍스트는 RAG 의존도를 낮추고 전체 코드베이스·문서를 인-컨텍스트로 처리하는 아키텍처 패턴을 현실화한다. 프로덕션 AI 시스템 설계 관점에서 '컨텍스트 관리 레이어'의 중요성이 크게 낮아지는 분기점이 될 수 있다.

이어 읽기

관련 읽을거리

전체 보기
2026년 4월 1일OpenAI, 최초 오픈웨이트 모델 gpt-oss-120b 공개 — Apache 2.0, o4-mini 수준 추론 성능OpenAI가 처음으로 오픈웨이트 모델인 gpt-oss-120b(117B 파라미터, MoE)와 gpt-oss-20b를 Apache 2.0 라이선스로 공개했다. 단일 80GB GPU에서 실행 가능하며, 코딩·수학·툴 사용에서 o4-mini와 동등하거나 일부 초과한다.2026년 6월 27일GPT-5.6 Sol preview - frontier model releases become policy-gated infrastructure decisionsOpenAI는 2026년 6월 26일 GPT-5.6 series의 limited preview를 발표하며 Sol, Terra, Luna 3개 tier와 새로운 max reasoning effort, subagent 기반 ultra mode를 공개했다. Sol은 Terminal-Bench 2.1, GeneBench v1, ExploitBench, ExploitGym 같은 장시간…2026년 6월 19일ChatGPT Enterprise spend controls — AI 도입의 병목이 모델 접근에서 비용 거버넌스로 이동OpenAI는 2026년 6월 18일 ChatGPT Enterprise에 credit usage analytics와 업데이트된 spend controls를 도입해 관리자에게 사용자·제품·모델별 사용량과 비용 가시성을 제공한다고 발표했다.2026년 6월 19일OpenAI AI chemist — GPT-5.4가 자동화 실험실과 결합해 Chan-Lam 수율을 개선OpenAI와 Molecule.one은 2026년 6월 17일 GPT-5.4를 Maria AI/Lab과 연결한 near-autonomous chemistry workflow가 primary sulfonamide Chan-Lam coupling에서 TEMPO 계열 additive를 찾아 수율을 개선했다고 발표했다. Maria Lab은 OAI-M1-03에서 10,080개 반응을 실행했고, 최적…