PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 5월 12일

DeepSeek-V4 — open frontier model 경쟁이 context length 표기보다 agent runtime 효율로 이동

DeepSeek-V4는 2026년 4월 24일 공개된 open MoE 계열로, DeepSeek-V4-Pro는 총 1.6T 파라미터 중 49B 활성, Flash는 284B 중 13B 활성 구조를 쓴다. 두 모델 모두 1M-token context를 지원하고, V4-Pro는 1M 토큰에서 V3.2 대비 single-token inference FLOPs를 27% 수준으로 낮추고 KV cache…

본문 읽기원문 보기

발행일

2026년 5월 12일

업데이트

2026년 5월 12일

주제

AI
모델
오픈소스
원문 보기

배경 및 맥락

대형 오픈 모델 경쟁은 오랫동안 파라미터 수와 벤치마크 점수 중심으로 전개됐지만, agent workload가 늘면서 병목은 다른 곳으로 이동했다. SWE-bench 같은 장기 작업, 브라우징, 터미널 세션은 답변 한 번보다 수십 번의 tool-call round trip을 거치며 이전 문맥을 계속 끌고 간다. 이때 중요한 것은 이론적 max context가 아니라, 긴 문맥에서 attention 비용과 KV cache가 얼마나 빨리 폭증하느냐다.

DeepSeek-V4는 이 문제를 정면으로 다룬다. 단순히 더 긴 context를 선언하는 대신, long-horizon agent가 실제로 버틸 수 있는 구조를 제안하면서 open frontier model의 경쟁축을 다시 정의했다.


핵심 내용

DeepSeek-V4-Pro는 1.6T total / 49B active, V4-Flash는 284B total / 13B active 구조를 사용한다. 공개 설명에 따르면 V4-Pro는 1M 토큰에서 V3.2 대비 single-token inference FLOPs가 27% 수준이고 KV cache 메모리는 10% 수준이며, 전통적인 GQA 계열과 비교하면 KV cache가 대략 2% 수준까지 줄어든다. 핵심은 CSA(Compressed Sparse Attention)와 HCA(Heavily Compressed Attention)를 교차 배치한 하이브리드 attention, FP8 중심 저장, FP4 indexer 같은 조합이다.

모델 동작 측면에서도 agent 최적화가 들어갔다. |DSML| 토큰과 XML 기반 tool-call 포맷으로 escaping failure를 줄였고, tool이 섞인 대화에서는 reasoning trace를 turn 사이에 유지하도록 바꿨다. 공개 수치상 V4-Pro-Max는 SWE Verified 80.6, MCPAtlas Public 73.6, Toolathlon 51.8을 기록해 frontier closed model과 근접한 agent benchmark를 보여준다.


경쟁 구도 / 비교

기존 오픈 모델의 약점은 긴 세션으로 갈수록 품질보다 운영비와 latency가 무너진다는 점이었다. 반면 이번 V4는 "더 똑똑한 모델"보다 "오래 달리는 모델"에 가깝다. 같은 open 계열이라도 EMO처럼 구조적 모듈성에 초점을 둔 접근과 달리, DeepSeek-V4는 agent runtime economics와 tool-use robustness를 전면에 둔다.

이는 경쟁 구도가 benchmark leaderboard에서 serving feasibility와 orchestration 적합성으로 옮겨가고 있음을 뜻한다. 특히 open model을 사내 coding agent나 private deployment에 쓰려는 팀에는 매우 실질적인 비교축이다.


의미

산업적으로는 open frontier model이 이제 closed model의 "저가 대체재"가 아니라, 특정 agent workload에서 운영상 더 유리한 선택지로 재포지셔닝될 수 있음을 보여준다. 기술적으로도 앞으로는 context window 숫자보다 cache design, tool-call schema, reasoning persistence가 더 중요한 평가 항목이 될 가능성이 크다.

실무적으로는 모델 평가표를 바꿔야 한다. 장기 세션에서의 cache footprint, tool schema 파서 안정성, multi-turn reasoning 유지 여부, 실제 agent benchmark를 함께 봐야 한다. 오픈 모델 도입 여부는 점점 모델 자체보다 운영 곡선에서 결정될 것이다.

이어 읽기

관련 읽을거리

전체 보기
2026년 6월 27일DeepSpec - speculative decoding becomes an open production optimization stackDeepSeek은 speculative decoding draft model을 훈련하고 평가하기 위한 MIT-licensed DeepSpec repository를 공개했다. README 기준 DeepSpec은 data preparation, draft model implementation, training, evaluation scripts를 포함하며 DSpark, DFlash,…2026년 6월 25일GLM-5.2 - open long-context models push agentic coding toward 1M-token workspacesZ.AI는 GLM-5.2를 공개하며 1M-token context, flexible effort levels, MIT license, long-horizon coding benchmark 성능을 전면에 내세웠다. 공개 글은 IndexShare로 1M context에서 per-token FLOPs를 2.9x 줄이고, Terminal Bench 2.1 81.0, SWE-bench Pro…2026년 6월 24일Kog Laneformer 2B - latency-first coding models move architecture into the serving layerKog는 Hugging Face에 Laneformer 2B의 weights와 model code를 공개했다. 이 모델은 2.3B parameter instruction-tuned coding model로, Delayed Tensor Parallelism과 lane-structured Transformer를 통해 batch-size-one decoding latency를 모델 아키텍처…2026년 6월 24일Krea 2 technical report - open image models compete on creative control, not only fidelityKrea는 Krea 2 technical report를 공개하며 K2 Raw와 K2 Turbo 계열의 open-weights text-to-image foundation model을 설명했다. 보고서는 data curation, diffusion transformer architecture, multi-stage training, prompt expander, style-reference…