PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 6월 25일

GLM-5.2 - open long-context models push agentic coding toward 1M-token workspaces

Z.AI는 GLM-5.2를 공개하며 1M-token context, flexible effort levels, MIT license, long-horizon coding benchmark 성능을 전면에 내세웠다. 공개 글은 IndexShare로 1M context에서 per-token FLOPs를 2.9x 줄이고, Terminal Bench 2.1 81.0, SWE-bench Pro…

본문 읽기원문 보기

발행일

2026년 6월 25일

업데이트

2026년 6월 25일

주제

AI
모델
오픈소스
트렌드
원문 보기

배경 및 맥락

Agentic coding과 research automation은 점점 단일 prompt 응답보다 긴 작업 흐름을 요구한다. 대형 repo 탐색, multi-step debugging, 성능 최적화, 장시간 실험 orchestration에서는 context length가 넓어도 attention 비용, KV cache, tool trajectory compaction, reward hacking 문제가 함께 해결되지 않으면 실제 생산성으로 이어지지 않는다.

최근 Notion cache에는 Kog Laneformer 2B처럼 latency-first coding model과 NVIDIA NeMo AutoModel처럼 MoE fine-tuning infrastructure가 들어갔다. GLM-5.2는 이와 달리 open flagship model이 long-horizon agent task를 직접 겨냥한 사례다. 즉 작은 모델 latency나 fine-tuning backend가 아니라, 1M-token workspace 자체를 agent execution substrate로 만들려는 방향이다.


핵심 내용

Z.AI는 2026년 6월 17일 Hugging Face에 GLM-5.2 발표 글을 게시했다. 핵심 스펙은 1M-token context, flexible thinking effort, MIT open-source license, long-horizon coding task 성능이다. 글은 IndexShare로 sparse attention indexer를 4개 layer마다 공유해 1M context length에서 per-token FLOPs를 2.9x 줄였고, MTP layer 개선으로 speculative decoding acceptance length를 최대 20% 높였다고 설명한다.

Benchmark 측면에서는 Terminal Bench 2.1 81.0, SWE-bench Pro 62.1, FrontierSWE 74.4, MCP-Atlas public set 76.8 등을 제시했다. 특히 FrontierSWE와 PostTrainBench, SWE-Marathon 같은 장시간 software engineering benchmark를 별도로 강조하며, GLM-5.2가 단순 장문 입력이 아니라 hours-to-tens-of-hours 규모 작업을 목표로 한다는 점을 분명히 했다.

기술적으로는 slime framework를 활용한 agentic RL post-training, parallel OPD training, compaction-aware rollout, tool-use anti-hacking guard가 포함된다. reward hacking 방지를 위해 rule-based filter와 LLM judge로 위험 tool call을 감지하고, 문제가 있으면 해당 call을 차단한 뒤 dummy result를 반환해 rollout 자체를 중단하지 않는 구조를 설명했다.


경쟁 구도 / 비교

최근 저장된 Kog Laneformer 2B는 small coding model의 single-request latency와 runtime co-design에 초점이 있었다. GLM-5.2는 그 반대편에서 장문 context와 long-horizon reasoning을 open model의 경쟁 축으로 밀어 올린다. NVIDIA NeMo AutoModel이 MoE fine-tuning 비용을 낮추는 infrastructure layer라면, GLM-5.2는 post-training, inference, coding plan product까지 한 번에 묶은 full-stack model release에 가깝다.

Closed frontier model과의 비교에서도 흥미로운 지점은 절대 점수보다 배포 형태다. GLM-5.2는 MIT license와 public weights를 내세워 기업이 local, vLLM, SGLang, transformers, xLLM, ktransformers 기반으로 직접 배포할 수 있는 경로를 제공한다. 이는 regulated environment나 data residency 요구가 강한 조직에는 closed API 대비 중요한 선택지가 된다.


의미

산업적으로 long-context model 경쟁은 이제 marketing spec이 아니라 agent platform architecture의 핵심이 되고 있다. 1M context는 repo 전체를 넣는 기능이 아니라, agent가 수십 단계의 탐색, 수정, 실행, 검증을 거치면서도 작업 목표와 근거를 유지하도록 만드는 운영 문제다.

실무적으로는 GLM-5.2 같은 모델을 바로 production coding agent에 넣기보다, 내부 repo에서 context packing, retrieval, compaction, tool-call audit, cost-per-task를 측정해야 한다. 특히 reward-hacking guard와 benchmark contamination 방지 설계는 agentic RL 모델을 평가하는 조직이 별도 checklist로 가져가야 할 항목이다.

이어 읽기

관련 읽을거리

전체 보기
2026년 6월 24일Krea 2 technical report - open image models compete on creative control, not only fidelityKrea는 Krea 2 technical report를 공개하며 K2 Raw와 K2 Turbo 계열의 open-weights text-to-image foundation model을 설명했다. 보고서는 data curation, diffusion transformer architecture, multi-stage training, prompt expander, style-reference…2026년 5월 17일Local open models on laptops — 오픈모델 성능 향상이 하드웨어보다 아키텍처 혁신에 더 크게 의존하기 시작Hugging Face 커뮤니티 글은 2026년 5월 11일, 128GB MacBook Pro 기준 로컬에서 구동 가능한 최상위 오픈웨이트 모델의 성능이 2년 사이 Artificial Analysis Intelligence Index 10 → 47로 상승했다고 정리했다. 같은 기간 RAM 상한은 128GB로 거의 고정됐고, 향상의 핵심 동인은 sparse MoE, mixed…2026년 5월 11일EMO — MoE가 실제 배포 가능한 모듈형 모델로 진화할 수 있음을 보여준 AllenAI의 오픈 릴리즈AllenAI는 2026년 5월 8일 EMO를 공개했다. 이 모델은 1B active / 14B total parameter, 128 experts, 1T tokens 규모의 MoE를 문서 단위 shared expert pool 제약으로 학습해, 전체 expert의 12.5%만 사용해도 near full-model 성능을 유지하도록 설계됐다.2026년 5월 5일Accelerating Gemma 4: faster inference with multi-token prediction drafters — 오픈모델 경쟁의 기준이 benchmark보다 latency economics로 이동Google은 2026년 5월 5일 Gemma 4용 Multi-Token Prediction (MTP) drafters를 공개했다. 이 speculative decoding 구조는 Gemma 4 target model과 경량 drafter를 결합해 output 품질 저하 없이 최대 3배 속도 향상을 제공하며, Gemma 4는 출시 수주 만에 6천만 다운로드를 넘겼다고 밝혔다.