PickleeAI와 개발에 대한 짧은 노트
홈아티클아카이브검색

끝까지 읽는 글

AI와 개발에 관한 변화 중에서 블로그처럼 오래 읽을 수 있는 글만 골라 정리합니다.

© 2026 Picklee

RSSSitemap

글

2026년 5월 12일수정 2026년 5월 12일원문

DeepSeek-V4 — open frontier model 경쟁이 context length 표기보다 agent runtime 효율로 이동

DeepSeek-V4는 2026년 4월 24일 공개된 open MoE 계열로, DeepSeek-V4-Pro는 총 1.6T 파라미터 중 49B 활성, Flash는 284B 중 13B 활성 구조를 쓴다. 두 모델 모두 1M-token context를 지원하고, V4-Pro는 1M 토큰에서 V3.2 대비 single-token inference FLOPs를 27% 수준으로 낮추고 KV cache…

AI
모델
오픈소스

배경 및 맥락

대형 오픈 모델 경쟁은 오랫동안 파라미터 수와 벤치마크 점수 중심으로 전개됐지만, agent workload가 늘면서 병목은 다른 곳으로 이동했다. SWE-bench 같은 장기 작업, 브라우징, 터미널 세션은 답변 한 번보다 수십 번의 tool-call round trip을 거치며 이전 문맥을 계속 끌고 간다. 이때 중요한 것은 이론적 max context가 아니라, 긴 문맥에서 attention 비용과 KV cache가 얼마나 빨리 폭증하느냐다.

DeepSeek-V4는 이 문제를 정면으로 다룬다. 단순히 더 긴 context를 선언하는 대신, long-horizon agent가 실제로 버틸 수 있는 구조를 제안하면서 open frontier model의 경쟁축을 다시 정의했다.


핵심 내용

DeepSeek-V4-Pro는 1.6T total / 49B active, V4-Flash는 284B total / 13B active 구조를 사용한다. 공개 설명에 따르면 V4-Pro는 1M 토큰에서 V3.2 대비 single-token inference FLOPs가 27% 수준이고 KV cache 메모리는 10% 수준이며, 전통적인 GQA 계열과 비교하면 KV cache가 대략 2% 수준까지 줄어든다. 핵심은 CSA(Compressed Sparse Attention)와 HCA(Heavily Compressed Attention)를 교차 배치한 하이브리드 attention, FP8 중심 저장, FP4 indexer 같은 조합이다.

모델 동작 측면에서도 agent 최적화가 들어갔다. |DSML| 토큰과 XML 기반 tool-call 포맷으로 escaping failure를 줄였고, tool이 섞인 대화에서는 reasoning trace를 turn 사이에 유지하도록 바꿨다. 공개 수치상 V4-Pro-Max는 SWE Verified 80.6, MCPAtlas Public 73.6, Toolathlon 51.8을 기록해 frontier closed model과 근접한 agent benchmark를 보여준다.


경쟁 구도 / 비교

기존 오픈 모델의 약점은 긴 세션으로 갈수록 품질보다 운영비와 latency가 무너진다는 점이었다. 반면 이번 V4는 "더 똑똑한 모델"보다 "오래 달리는 모델"에 가깝다. 같은 open 계열이라도 EMO처럼 구조적 모듈성에 초점을 둔 접근과 달리, DeepSeek-V4는 agent runtime economics와 tool-use robustness를 전면에 둔다.

이는 경쟁 구도가 benchmark leaderboard에서 serving feasibility와 orchestration 적합성으로 옮겨가고 있음을 뜻한다. 특히 open model을 사내 coding agent나 private deployment에 쓰려는 팀에는 매우 실질적인 비교축이다.


의미

산업적으로는 open frontier model이 이제 closed model의 "저가 대체재"가 아니라, 특정 agent workload에서 운영상 더 유리한 선택지로 재포지셔닝될 수 있음을 보여준다. 기술적으로도 앞으로는 context window 숫자보다 cache design, tool-call schema, reasoning persistence가 더 중요한 평가 항목이 될 가능성이 크다.

실무적으로는 모델 평가표를 바꿔야 한다. 장기 세션에서의 cache footprint, tool schema 파서 안정성, multi-turn reasoning 유지 여부, 실제 agent benchmark를 함께 봐야 한다. 오픈 모델 도입 여부는 점점 모델 자체보다 운영 곡선에서 결정될 것이다.

더 읽기

같이 읽어볼 만한 글

전체 글 보기
2026년 5월 11일

EMO — MoE가 실제 배포 가능한 모듈형 모델로 진화할 수 있음을 보여준 AllenAI의 오픈 릴리즈

AllenAI는 2026년 5월 8일 EMO를 공개했다. 이 모델은 1B active / 14B total parameter, 128 experts, 1T tokens 규모의 MoE를 문서 단위 shared expert pool 제약으로 학습해, 전체 expert의 12.5%만 사용해도 near full-model 성능을 유지하도록 설계됐다. 🔍 왜 주목해야 하나 지금까지 MoE는…

2026년 5월 5일

Accelerating Gemma 4: faster inference with multi-token prediction drafters — 오픈모델 경쟁의 기준이 benchmark보다 latency economics로 이동

Google은 2026년 5월 5일 Gemma 4용 Multi-Token Prediction (MTP) drafters를 공개했다. 이 speculative decoding 구조는 Gemma 4 target model과 경량 drafter를 결합해 output 품질 저하 없이 최대 3배 속도 향상을 제공하며, Gemma 4는 출시 수주 만에 6천만 다운로드를 넘겼다고 밝혔다. 🔍 왜…

2026년 5월 2일

NVIDIA Nemotron 3 Nano Omni — multimodal agent 스택이 모델 조합에서 단일 perception sub-agent로 수렴

NVIDIA는 2026년 4월 28일 vision·audio·video·text를 한 모델에서 처리하는 오픈 multimodal reasoning model Nemotron 3 Nano Omni를 발표했다. 이 모델은 30B-A3B hybrid MoE, 256K context를 기반으로 document intelligence·video/audio understanding…

2026년 4월 30일

Qwen3.6 — 오픈 코딩 모델 경쟁이 벤치마크보다 저장된 추론과 레포 단위 작업 완성도로 이동

Qwen 팀은 2026년 4월 Qwen3.6 시리즈를 공개하며 35B-A3B와 27B 모델을 순차 배포했다. 공식 저장소 기준으로 이번 릴리스는 agentic coding, front-end workflow, repository-level reasoning 강화와 함께 conversation history 전반에 thinking context를 유지하는 Thinking…