2026년 4월 15일
Hugging Face State of Open Source Spring 2026 — 오픈 모델 경쟁의 축이 성능에서 주권·배포·파생 생태계로 이동
Hugging Face는 2026년 봄 오픈소스 AI 리포트를 통해 2025년 신규 trending model의 다수가 China에서 개발되었거나 China-origin 모델 파생형이었고, Alibaba의 Qwen 계열은 11만 3천 개 이상의 derivative models를 만들었다고 정리했다. 또 1-9B급 모델의 상위군은 100B+ 모델 대비 median 기준 약 4배 높은…
2026년 4월 5일
PrismML, Bonsai 1-bit LLM 출시 — 1GB 메모리로 8B 추론, 엣지 AI의 현실화
PrismML이 4월 3일 스텔스에서 등장해 세계 최초 상업적으로 실행 가능한 1-bit LLM 패밀리 Bonsai를 Apache 2.0으로 공개했다. 플래그십인 Bonsai 8B는 1.15GB 메모리에 구동되며, FP16 8B 모델 대비 14배 소형·8배 빠른 속도·5배 낮은 에너지 소비를 달성하면서 추론 품질은 동급 수준을 유지한다. 🔍 왜 주목해야 하나 1-bit LLM은…
2026년 5월 9일
NVIDIA and ServiceNow Partner on New Autonomous AI Agents for Enterprises — desktop agent 경쟁이 모델 성능에서 governed runtime으로 이동
NVIDIA와 ServiceNow는 2026년 5월 5일 기업용 자율 에이전트 협업을 확대한다고 발표했다. ServiceNow는 로컬 파일시스템·터미널·설치 앱에 접근할 수 있는 장기 실행형 desktop agent Project Arc를 공개했고, 이 에이전트는 NVIDIA OpenShell이라는 오픈소스 sandboxed runtime과 ServiceNow AI Control…
2026년 5월 5일
Accelerating Gemma 4: faster inference with multi-token prediction drafters — 오픈모델 경쟁의 기준이 benchmark보다 latency economics로 이동
Google은 2026년 5월 5일 Gemma 4용 Multi-Token Prediction (MTP) drafters를 공개했다. 이 speculative decoding 구조는 Gemma 4 target model과 경량 drafter를 결합해 output 품질 저하 없이 최대 3배 속도 향상을 제공하며, Gemma 4는 출시 수주 만에 6천만 다운로드를 넘겼다고 밝혔다. 🔍 왜…