PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 6월 24일

NVIDIA NeMo AutoModel - MoE fine-tuning gets a drop-in performance path for Transformers

NVIDIA와 Hugging Face는 Transformers v5 위에서 NeMo AutoModel을 사용해 MoE fine-tuning을 가속하는 방법을 공개했다. NeMo AutoModel은 Expert Parallelism, DeepEP fused all-to-all dispatch, TransformerEngine kernels를 추가해 같은 from_pretrained() 계열…

본문 읽기원문 보기

발행일

2026년 6월 24일

업데이트

2026년 6월 24일

주제

AI
개발도구
모델
오픈소스
원문 보기

배경 및 맥락

Mixture-of-Experts는 대형 모델의 핵심 아키텍처로 자리 잡았지만, fine-tuning 관점에서는 dense model보다 운영 난도가 높다. 수백 개 expert로 token을 route하고, expert matmul을 묶고, 여러 GPU에 weight를 shard하며, 통신과 연산을 겹쳐야 실제 throughput이 나온다.

Hugging Face Transformers v5는 expert backend, dynamic weight loading, PyTorch DeviceMesh 통합 등 MoE 기반을 강화했다. NVIDIA NeMo AutoModel은 이 기반 위에 Expert Parallelism, DeepEP dispatch, TransformerEngine kernels를 더해 MoE fine-tuning을 drop-in upgrade처럼 사용할 수 있게 만드는 것을 목표로 한다.


핵심 내용

2026년 6월 24일 공개된 글에 따르면 NeMo AutoModel은 Hugging Face AutoModelForCausalLM을 subclass하고, 사용자는 import를 바꾸는 방식으로 기존 Transformers workflow를 유지할 수 있다. 인기 MoE architecture인 Qwen3, NVIDIA Nemotron, GPT-OSS, DeepSeek V3에는 hand-tuned implementation, TransformerEngine attention, fused linear layers, custom expert kernels가 적용된다.

성능 측면에서 글은 Qwen3-30B-A3B와 Nemotron 3 Nano 30B A3B 단일 노드 8x H100 benchmark에서 Transformers v5 대비 3.4-3.7x 높은 TPS/GPU와 29-32% 낮은 peak memory를 제시했다. 또한 Nemotron 3 Ultra 550B A55B full fine-tune을 16 H100 nodes, 총 128 GPUs에서 수행하는 예시를 통해 Expert Parallelism이 없으면 memory에 맞지 않는 scale을 다룬다. NeMo AutoModel checkpoint는 standard HF-format safetensors로 저장되어 vLLM과 SGLang에서도 사용할 수 있다고 설명한다.


경쟁 구도 / 비교

최근 저장된 Intel XPU Kernel Skill은 LLM-driven Triton optimization으로 inference/kernel layer를 다뤘다. NeMo AutoModel은 training/fine-tuning layer에서 MoE의 expert routing과 communication 문제를 직접 해결한다. 둘 다 모델 성능보다 시스템 효율이 경쟁력이 되는 흐름을 보여주지만, 적용 지점은 다르다.

Open-source 모델을 활용하는 기업은 Qwen, DeepSeek, Nemotron류 checkpoint를 단순히 내려받는 것에서 끝나지 않는다. domain adaptation, instruction tuning, safety tuning을 하려면 학습 인프라 비용과 checkpoint compatibility가 중요하다. NeMo AutoModel은 HF 생태계와 NVIDIA kernel stack을 연결해 이 비용을 낮추려는 시도다.


의미

산업적으로 open model adoption의 병목은 라이선스와 benchmark만이 아니라 post-training infrastructure다. MoE 모델은 parameter 수가 크더라도 실제 활성화되는 expert가 제한되어 inference 효율을 얻을 수 있지만, fine-tuning에서는 expert sharding과 communication이 제대로 설계되지 않으면 GPU memory와 latency가 급격히 악화된다.

실무적으로 모델 플랫폼 팀은 MoE fine-tuning을 계획할 때 GPU 총량만 계산하지 말고 EP size, FSDP2, DeepEP, checkpoint export, inference runtime compatibility를 함께 검증해야 한다. 특히 enterprise 모델 커스터마이징에서는 학습 성능과 배포 경로가 분리되면 비용과 운영 리스크가 커진다.

이어 읽기

관련 읽을거리

전체 보기
2026년 6월 27일DeepSpec - speculative decoding becomes an open production optimization stackDeepSeek은 speculative decoding draft model을 훈련하고 평가하기 위한 MIT-licensed DeepSpec repository를 공개했다. README 기준 DeepSpec은 data preparation, draft model implementation, training, evaluation scripts를 포함하며 DSpark, DFlash,…2026년 6월 24일Kog Laneformer 2B - latency-first coding models move architecture into the serving layerKog는 Hugging Face에 Laneformer 2B의 weights와 model code를 공개했다. 이 모델은 2.3B parameter instruction-tuned coding model로, Delayed Tensor Parallelism과 lane-structured Transformer를 통해 batch-size-one decoding latency를 모델 아키텍처…2026년 6월 8일Introducing Mellum2 — software engineering용 small expert model 경쟁이 giant general model에서 low-latency control layer로 이동JetBrains는 2026년 6월 1일 Mellum2를 공개했다. 이 모델은 text·code 특화 12B Mixture-of-Experts 구조를 사용하며 token당 2.5B만 활성화해, routing·RAG·summarization·sub-agent 같은 latency-sensitive workload에서 2배 이상 빠른 추론을 목표로 한다.2026년 6월 26일QHexRT - Qualcomm Hexagon NPU inference moves small LLMs fully on-deviceRunAnywhereAI는 Qualcomm Hexagon NPU용 full-stack inference engine인 QHexRT를 공개했고, 첫 catalog entry로 Liquid AI의 LFM 2.5 230M을 지원한다. 발표는 decode graph, prefill graph, lm-head, embeddings까지 inference path의 모든 tensor가 HTP에 머무르며…