PickleeAI와 개발에 대한 짧은 노트
홈아티클아카이브검색

끝까지 읽는 글

AI와 개발에 관한 변화 중에서 블로그처럼 오래 읽을 수 있는 글만 골라 정리합니다.

© 2026 Picklee

RSSSitemap

글

2026년 4월 1일수정 2026년 4월 1일원문

GPT-5.4 출시 — 추론·코딩·에이전트 통합 모델, OSWorld-V 인간 기준선 AI 최초 초과

OpenAI가 3월 5일 GPT-5.4를 출시했다. GPT-5.3 Codex의 코딩 역량을 메인라인 추론 모델에 통합한 것으로, 100만 토큰 컨텍스트 윈도우와 멀티스텝 에이전트 워크플로우 자율 실행 능력을 탑재했다. 실제 데스크톱 생산성 태스크를 시뮬레이션하는 OSWorld-V 벤치마크에서 75%를 기록, 인간 기준선(72.4%)을 AI 최초로 초과했다. 🔍 왜 주목해야 하나…

AI
모델
OpenAI
트렌드
API

배경 및 맥락

OpenAI는 2025년 하반기부터 모델 라인업이 복잡해지는 문제에 직면했다. 일반 추론용 GPT-5 시리즈, 고급 추론용 o 시리즈, 코딩 특화 Codex 시리즈가 병존하면서 개발자들이 태스크마다 적합한 모델을 선택해야 하는 인지적 부담이 커졌다. GPT-5.4는 GPT-5.3 Codex의 코딩 전문성을 메인라인 모델에 흡수시켜 이 복잡성을 해소하려는 시도다.


핵심 내용

주요 스펙 및 기능:

  • 컨텍스트 윈도우: 100만 토큰
  • 멀티스텝 워크플로우: 소프트웨어 환경 전반에서 자율 실행
  • 코딩: GPT-5.3 Codex 역량 통합
  • 팩추얼 오류: GPT-5.2 대비 개별 클레임 33% 감소, 전체 응답 오류 18% 감소

벤치마크 성과:

  • OSWorld-V: 75% (인간 기준선 72.4% 최초 초과)
  • GDPVal: 83.0% (경제적 가치 있는 태스크에서 인간 전문가 수준)

버전 구분: ChatGPT Plus·Team·Pro 사용자에게 GPT-5.4 Thinking 제공, Pro·Enterprise에게 GPT-5.4 Pro 제공.


경쟁 구도 / 비교

모델컨텍스트코딩 특화OSWorld 평가통합 수준
GPT-5.3 Codex200K높음미발표코딩 전용
o4-mini200K중간미발표추론 전용
Claude 3.7 Sonnet200K높음미발표추론+코딩
GPT-5.41M높음75% (인간 초과)추론+코딩+에이전트 통합

의미

OSWorld-V에서 인간 기준선을 넘은 것은 단순한 벤치마크 기록이 아니다. 이 벤치마크는 실제 운영 환경(브라우저, 스프레드시트, 코드 에디터 등)에서 사람이 수행하는 복합 워크플로우를 평가하기 때문에, 결과는 '범용 데스크톱 에이전트'가 이제 상용화 가능한 수준에 도달했음을 의미한다. 100만 토큰 컨텍스트는 RAG 의존도를 낮추고 전체 코드베이스·문서를 인-컨텍스트로 처리하는 아키텍처 패턴을 현실화한다. 프로덕션 AI 시스템 설계 관점에서 '컨텍스트 관리 레이어'의 중요성이 크게 낮아지는 분기점이 될 수 있다.

더 읽기

같이 읽어볼 만한 글

전체 글 보기
2026년 4월 1일

OpenAI, 최초 오픈웨이트 모델 gpt-oss-120b 공개 — Apache 2.0, o4-mini 수준 추론 성능

OpenAI가 처음으로 오픈웨이트 모델인 gpt-oss-120b(117B 파라미터, MoE)와 gpt-oss-20b를 Apache 2.0 라이선스로 공개했다. 단일 80GB GPU에서 실행 가능하며, 코딩·수학·툴 사용에서 o4-mini와 동등하거나 일부 초과한다. 🔍 왜 주목해야 하나 OpenAI가 '오픈소스 전략 부재'라는 비판을 받아온 상황에서 이번 출시는 단순한 제품 발표를 넘어…

2026년 5월 7일

Advancing voice intelligence with new models in the API — voice AI 경쟁이 STT/TTS를 넘어 realtime agent runtime으로 이동

OpenAI는 2026년 5월 7일 Realtime API용 새 음성 모델 3종 GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper를 공개했다. GPT-Realtime-2는 컨텍스트 윈도를 32K에서 128K로 늘리고 병렬 tool call, 조정 가능한 reasoning effort, 더 강한 recovery behavior를…

2026년 5월 6일

GPT-5.5 Instant — 범용 AI 제품 경쟁이 frontier launch보다 기본 모델 운영 품질로 이동

OpenAI는 2026년 5월 5일 ChatGPT의 기본 모델을 GPT-5.5 Instant로 교체한다고 발표했다. 새 모델은 GPT-5.3 Instant 대비 고위험 프롬프트에서 hallucinated claim을 52.5% 줄였고, 사용자가 오류를 지적했던 까다로운 대화에서는 inaccurate claim을 37.3% 줄였으며, chat-latest로도 제공된다. 🔍 왜 주목해야 하나…

2026년 4월 5일

Google Gemma 4 공개 — Apache 2.0·256K 컨텍스트·멀티모달, 오픈 에이전틱 모델의 새 기준

Google이 4월 2~3일 Gemma 4를 Apache 2.0 라이선스로 공개했다. Effective 2B·4B·26B MoE·31B Dense 네 가지 크기로 제공되며, 256K 토큰 컨텍스트, 비전·오디오 네이티브 멀티모달, 140개 이상 언어를 지원한다. 🔍 왜 주목해야 하나 Gemma 4는 Gemini 3와 동일한 연구 기반으로 제작됐으면서 상업 제한 없는 Apache 2.0으로…