글
DeepSeek-V4 — open frontier model 경쟁이 context length 표기보다 agent runtime 효율로 이동
DeepSeek-V4는 2026년 4월 24일 공개된 open MoE 계열로, DeepSeek-V4-Pro는 총 1.6T 파라미터 중 49B 활성, Flash는 284B 중 13B 활성 구조를 쓴다. 두 모델 모두 1M-token context를 지원하고, V4-Pro는 1M 토큰에서 V3.2 대비 single-token inference FLOPs를 27% 수준으로 낮추고 KV cache…
배경 및 맥락
대형 오픈 모델 경쟁은 오랫동안 파라미터 수와 벤치마크 점수 중심으로 전개됐지만, agent workload가 늘면서 병목은 다른 곳으로 이동했다. SWE-bench 같은 장기 작업, 브라우징, 터미널 세션은 답변 한 번보다 수십 번의 tool-call round trip을 거치며 이전 문맥을 계속 끌고 간다. 이때 중요한 것은 이론적 max context가 아니라, 긴 문맥에서 attention 비용과 KV cache가 얼마나 빨리 폭증하느냐다.
DeepSeek-V4는 이 문제를 정면으로 다룬다. 단순히 더 긴 context를 선언하는 대신, long-horizon agent가 실제로 버틸 수 있는 구조를 제안하면서 open frontier model의 경쟁축을 다시 정의했다.
핵심 내용
DeepSeek-V4-Pro는 1.6T total / 49B active, V4-Flash는 284B total / 13B active 구조를 사용한다. 공개 설명에 따르면 V4-Pro는 1M 토큰에서 V3.2 대비 single-token inference FLOPs가 27% 수준이고 KV cache 메모리는 10% 수준이며, 전통적인 GQA 계열과 비교하면 KV cache가 대략 2% 수준까지 줄어든다. 핵심은 CSA(Compressed Sparse Attention)와 HCA(Heavily Compressed Attention)를 교차 배치한 하이브리드 attention, FP8 중심 저장, FP4 indexer 같은 조합이다.
모델 동작 측면에서도 agent 최적화가 들어갔다. |DSML| 토큰과 XML 기반 tool-call 포맷으로 escaping failure를 줄였고, tool이 섞인 대화에서는 reasoning trace를 turn 사이에 유지하도록 바꿨다. 공개 수치상 V4-Pro-Max는 SWE Verified 80.6, MCPAtlas Public 73.6, Toolathlon 51.8을 기록해 frontier closed model과 근접한 agent benchmark를 보여준다.
경쟁 구도 / 비교
기존 오픈 모델의 약점은 긴 세션으로 갈수록 품질보다 운영비와 latency가 무너진다는 점이었다. 반면 이번 V4는 "더 똑똑한 모델"보다 "오래 달리는 모델"에 가깝다. 같은 open 계열이라도 EMO처럼 구조적 모듈성에 초점을 둔 접근과 달리, DeepSeek-V4는 agent runtime economics와 tool-use robustness를 전면에 둔다.
이는 경쟁 구도가 benchmark leaderboard에서 serving feasibility와 orchestration 적합성으로 옮겨가고 있음을 뜻한다. 특히 open model을 사내 coding agent나 private deployment에 쓰려는 팀에는 매우 실질적인 비교축이다.
의미
산업적으로는 open frontier model이 이제 closed model의 "저가 대체재"가 아니라, 특정 agent workload에서 운영상 더 유리한 선택지로 재포지셔닝될 수 있음을 보여준다. 기술적으로도 앞으로는 context window 숫자보다 cache design, tool-call schema, reasoning persistence가 더 중요한 평가 항목이 될 가능성이 크다.
실무적으로는 모델 평가표를 바꿔야 한다. 장기 세션에서의 cache footprint, tool schema 파서 안정성, multi-turn reasoning 유지 여부, 실제 agent benchmark를 함께 봐야 한다. 오픈 모델 도입 여부는 점점 모델 자체보다 운영 곡선에서 결정될 것이다.