PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 6월 24일

Kog Laneformer 2B - latency-first coding models move architecture into the serving layer

Kog는 Hugging Face에 Laneformer 2B의 weights와 model code를 공개했다. 이 모델은 2.3B parameter instruction-tuned coding model로, Delayed Tensor Parallelism과 lane-structured Transformer를 통해 batch-size-one decoding latency를 모델 아키텍처…

본문 읽기원문 보기

발행일

2026년 6월 24일

업데이트

2026년 6월 24일

주제

AI
모델
개발도구
오픈소스
원문 보기

배경 및 맥락

AI coding agent의 병목은 점점 모델이 답을 맞히는가에서 agent loop가 충분히 빠르게 도는가로 이동하고 있다. 대화형 개발, 자동 테스트 수정, browser/debug loop에서는 수십 초짜리 응답보다 낮은 latency와 반복 가능성이 더 중요할 때가 많다.

기존 접근은 일반적인 Transformer를 학습한 뒤 quantization, batching, speculative decoding, kernel 최적화, GPU sharding으로 serving layer에서 속도를 끌어올리는 방식이었다. Kog의 Laneformer 2B는 이 순서를 뒤집어, 모델 아키텍처가 처음부터 inference engine이 활용할 수 있는 구조를 갖도록 설계했다는 점이 핵심이다.


핵심 내용

Kog는 2026년 6월 24일 Hugging Face에 Laneformer 2B를 공개했다. 공개 항목에는 BF16 instruction-tuned checkpoint, custom Hugging Face implementation, model configuration, architecture metadata, tokenizer information, chat template, evaluation results, documentation이 포함된다. 모델 weights와 Kog 소유 구현은 Apache License 2.0으로 공개되지만 tokenizer artifacts는 Llama 2 Community License 기반이라 재배포자는 라이선스 검토가 필요하다.

기술적으로 Laneformer는 8-lane 구조와 Delayed Tensor Parallelism을 사용해 batch-size-one decoding에서 layer마다 발생하는 inter-GPU synchronization 비용을 숨기려 한다. 학습은 약 4T pretraining tokens, 2T code/reasoning-heavy midtraining tokens, 210M instruction-tuning tokens로 구성됐고, 192 H100 GPUs에서 약 21일 학습한 것으로 설명됐다. 평가에서는 greedy decoding 기준 HumanEval+ 45.1%, MBPP+ 51.6%를 제시했으며, Kog Inference Engine preview에서는 8x AMD MI300X에서 3,000 output tokens/s/request, 8x NVIDIA H200에서 2,100 output tokens/s/request를 보고했다.


경쟁 구도 / 비교

최근 저장된 MAI-Code-1-Flash와 Google Jules 항목이 coding model surface coverage와 proactive coding-agent evaluation을 다뤘다면, Laneformer는 모델 architecture와 runtime co-design이라는 더 낮은 계층을 다룬다. Intel XPU Kernel Skill이 kernel optimization을 agent에게 맡기는 흐름이었다면, Laneformer는 runtime이 원하는 구조를 모델 자체에 반영한다.

이는 작은 모델이 단순히 비용 절감용 fallback이라는 관점을 약화시킨다. agent orchestration에서는 frontier model이 모든 reasoning을 담당하더라도, 빠른 local or near-local coding subtask model이 review, candidate generation, test-fix loop를 빠르게 돌리는 구조가 경쟁력이 될 수 있다.


의미

산업적으로 coding agent 경쟁은 IDE 기능이나 benchmark leaderboard만으로 설명하기 어려워지고 있다. latency, throughput, context length, model size, runtime topology, license가 함께 제품 경험을 결정한다. Laneformer 2B는 작은 coding model의 가치를 단순 저비용이 아니라 low-latency agent substrate로 재정의한다.

실무적으로 플랫폼팀은 coding model을 도입할 때 HumanEval류 점수뿐 아니라 single-request latency, multi-GPU communication overhead, warm start behavior, license, tokenizer 제약, inference engine 종속성을 함께 검토해야 한다. 특히 agent가 여러 번 호출되는 workflow에서는 모델 품질보다 호출당 지연시간과 실패 복구 시간이 전체 생산성을 좌우할 수 있다.

이어 읽기

관련 읽을거리

전체 보기
2026년 6월 27일DeepSpec - speculative decoding becomes an open production optimization stackDeepSeek은 speculative decoding draft model을 훈련하고 평가하기 위한 MIT-licensed DeepSpec repository를 공개했다. README 기준 DeepSpec은 data preparation, draft model implementation, training, evaluation scripts를 포함하며 DSpark, DFlash,…2026년 6월 24일NVIDIA NeMo AutoModel - MoE fine-tuning gets a drop-in performance path for TransformersNVIDIA와 Hugging Face는 Transformers v5 위에서 NeMo AutoModel을 사용해 MoE fine-tuning을 가속하는 방법을 공개했다. NeMo AutoModel은 Expert Parallelism, DeepEP fused all-to-all dispatch, TransformerEngine kernels를 추가해 같은 from_pretrained() 계열…2026년 6월 8일Introducing Mellum2 — software engineering용 small expert model 경쟁이 giant general model에서 low-latency control layer로 이동JetBrains는 2026년 6월 1일 Mellum2를 공개했다. 이 모델은 text·code 특화 12B Mixture-of-Experts 구조를 사용하며 token당 2.5B만 활성화해, routing·RAG·summarization·sub-agent 같은 latency-sensitive workload에서 2배 이상 빠른 추론을 목표로 한다.2026년 6월 26일QHexRT - Qualcomm Hexagon NPU inference moves small LLMs fully on-deviceRunAnywhereAI는 Qualcomm Hexagon NPU용 full-stack inference engine인 QHexRT를 공개했고, 첫 catalog entry로 Liquid AI의 LFM 2.5 230M을 지원한다. 발표는 decode graph, prefill graph, lm-head, embeddings까지 inference path의 모든 tensor가 HTP에 머무르며…