글
Introducing GPT-5.5 — 에이전트형 지식노동의 병목이 모델 성능보다 실행 효율과 자율성 설계로 이동
OpenAI는 2026년 4월 23일 GPT-5.5를 공개했고, 4월 24일에는 API 제공까지 시작했다. GPT-5.5는 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%, GDPval에서 84.9%, OSWorld-Verified에서 78.7%를 기록하며 GPT-5.4 대비 더 높은 성능과 더 낮은 토큰 사용량을 동시에 내세웠다. 🔍 왜 주목해야…
배경 및 맥락
지난 1년간 생성형 AI 시장은 더 높은 benchmark 점수와 더 큰 context window를 경쟁 축으로 삼아 왔다. 하지만 실제 현장에서 병목이 되는 것은 모델이 한 번에 얼마나 똑똑하게 답하느냐보다, 모호한 요구를 해석하고 여러 도구를 오가며 작업을 끝까지 밀어붙일 수 있느냐였다. 특히 coding, spreadsheet, web research, document authoring 같은 업무는 정답 한 줄보다 실행의 지속성과 검증 루프가 중요하다.
OpenAI의 GPT-5.5 출시는 이런 흐름을 공식화한다. 발표는 모델을 단순한 chat intelligence가 아니라 실제 컴퓨터 작업을 수행하는 work engine으로 포지셔닝했고, 지능 향상만큼이나 토큰 효율과 serving latency를 동시에 강조했다. 이는 frontier model 경쟁이 inference cost와 execution quality를 함께 최적화하는 단계로 넘어갔다는 신호다.
핵심 내용
OpenAI는 2026년 4월 23일 GPT-5.5를 공개했고, 4월 24일 업데이트로 GPT-5.5와 GPT-5.5 Pro의 API 제공도 시작했다. 공개 수치에 따르면 GPT-5.5는 Terminal-Bench 2.0에서 82.7%, SWE-Bench Pro에서 58.6%, GDPval에서 84.9%, OSWorld-Verified에서 78.7%를 기록했다. OpenAI는 GPT-5.5가 GPT-5.4 대비 더 높은 성능을 내면서도 같은 Codex 작업을 더 적은 토큰으로 수행한다고 설명했다.
제품 포지셔닝도 명확하다. OpenAI는 GPT-5.5가 code 작성과 디버깅, web research, data analysis, 문서와 스프레드시트 생성, computer use까지 아우르며, 사용자가 세부 단계를 일일이 관리하지 않아도 계획 수립, 도구 사용, 검증, ambiguity handling을 이어갈 수 있다고 주장한다. 실제 내부 사례로는 speaking request 분석 자동화, 24,771개의 K-1 tax form 검토, 주간 business report 자동화 등이 제시됐다.
성능 향상의 배경으로는 inference stack 공동 설계가 제시됐다. GPT-5.5는 NVIDIA GB200/GB300 NVL72 기반으로 학습 및 서빙되며, Codex가 load balancing과 partitioning heuristic 개선에도 활용돼 token generation speed를 20% 이상 끌어올렸다고 OpenAI는 밝혔다.
경쟁 구도 / 비교
이전 세대 모델과 많은 경쟁 모델은 더 높은 reasoning 성능을 위해 latency나 비용 증가를 감수하는 경향이 있었다. GPT-5.5 발표에서 중요한 지점은 OpenAI가 성능 향상을 GPT-5.4급 latency 유지와 함께 묶었다는 점이다. 이는 frontier model이 더 커질수록 운영비와 응답 지연이 함께 증가하는 전통적 trade-off를 줄이려는 시도다.
또한 경쟁 축도 달라졌다. 단순 chat benchmark보다 Terminal-Bench, OSWorld, GDPval처럼 실제 도구 사용과 장기 작업 수행을 반영하는 평가가 전면에 배치됐다. 이는 Claude Code, Cursor, Copilot 계열이 주도해 온 agentic coding 경쟁이 이제 범용 지식노동 자동화 경쟁과 합쳐지고 있음을 보여준다.
의미
GPT-5.5의 의미는 더 똑똑한 모델 하나가 추가됐다는 데 있지 않다. 중요한 변화는 AI 제품이 answer engine이 아니라 execution engine으로 재정의되고 있다는 점이다. 앞으로는 어떤 모델이 더 많은 벤치마크를 이겼는지보다, 어떤 모델이 더 적은 감독으로 더 긴 업무를 더 싸고 안정적으로 끝내는지가 핵심 KPI가 될 가능성이 높다.
실무적으로는 AI 도입 조직이 evaluation 체계를 바꿔야 한다. 모델 비교 시 정확도뿐 아니라 retry 횟수, token spend, tool-call 안정성, review burden, 보안 가드레일 적합성을 함께 측정해야 하며, 코딩 에이전트도 단발성 생성이 아니라 운영 가능한 업무 위임 계층으로 설계할 필요가 있다.