PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 4월 5일

PrismML, Bonsai 1-bit LLM 출시 — 1GB 메모리로 8B 추론, 엣지 AI의 현실화

PrismML이 4월 3일 스텔스에서 등장해 세계 최초 상업적으로 실행 가능한 1-bit LLM 패밀리 Bonsai를 Apache 2.0으로 공개했다. 플래그십인 Bonsai 8B는 1.15GB 메모리에 구동되며, FP16 8B 모델 대비 14배 소형·8배 빠른 속도·5배 낮은 에너지 소비를 달성하면서 추론 품질은 동급 수준을 유지한다.

본문 읽기원문 보기

발행일

2026년 4월 5일

업데이트

2026년 4월 5일

주제

트렌드
오픈소스
무료
AI
모델
산업
원문 보기

배경 및 맥락

2023년 Microsoft Research가 BitNet 논문을 발표한 이후, AI 연구 커뮤니티는 모델 가중치를 1-bit(−1 또는 +1)로 표현할 경우 메모리와 연산량을 극적으로 절감할 수 있다는 가능성에 주목했다. 2024년 BitNet b1.58(1-bit 또는 0 값을 허용하는 삼진법 변형)이 등장했지만, 여전히 실용적 추론 품질과 기존 하드웨어 호환성에서 한계가 있었다.

한편 클라우드 LLM API 의존에 대한 우려가 높아지면서, 프라이버시·비용·오프라인 요구사항을 충족하는 온디바이스 AI에 대한 수요가 급증했다. Apple이 iPhone에 온디바이스 모델을 적극 통합하고, 퀄컴·미디어텍이 NPU를 강화하는 흐름이 이 시장을 키웠다. PrismML은 이 공백을 정확히 겨냥하며 스텔스 출발했다.


핵심 내용

Bonsai 모델 패밀리 스펙:

  • Bonsai 1.7B — 메모리 0.24GB, 가장 경량
  • Bonsai 4B — 메모리 0.5GB
  • Bonsai 8B (플래그십) — 메모리 1.15GB

FP16 8B 모델 대비 성능 비교:

지표FP16 8BBonsai 8B
메모리~16GB1.15GB
추론 속도기준8배 빠름
에너지 소비기준5배 낮음
추론 품질기준동급

기술 접근법:

기존 FP16/FP32 모델을 양자화(quantization)하는 방식이 아닌, 처음부터 1-bit 구조로 학습(native 1-bit training)하는 방식을 채택했다. Caltech에서 개발된 독자 학습 알고리즘으로, 1-bit 제약 하에서도 그래디언트 흐름과 표현력을 유지하는 것이 핵심이다.

라이선스 및 가용성:

  • Apache 2.0 라이선스로 무료 공개
  • Hugging Face에서 즉시 다운로드 가능
  • Apple Silicon(MLX), x86, ARM 지원

경쟁 구도 / 비교

PrismML 이전까지 실용적인 소형 모델 경쟁은 주로 4-bit 양자화 영역에서 벌어졌다. llama.cpp의 Q4_K_M 양자화가 8B 모델을 약 4~5GB로 줄이는 것이 최선이었다. Bonsai 8B의 1.15GB는 이보다 4배 이상 작다.

Google Gemma 4 E2B나 Microsoft Phi-4가 소형 고성능 모델 시장을 겨냥하지만, 두 모델 모두 FP16/BF16 기반으로 최소 수 GB의 메모리를 요구한다. Bonsai의 1GB 미만 8B 모델은 카테고리 자체가 다르다.


의미

1-bit LLM의 상용 출시는 AI 인퍼런스 비용 구조를 근본적으로 바꿀 가능성을 열었다. 단기적으로는 오프라인 의료 기기, 산업용 IoT, 저연결 환경의 AI 솔루션 시장이 직접적인 수혜를 받는다. 중장기적으로는 AI 칩 아키텍처 설계에서 1-bit 연산 최적화가 주류가 될 경우, 현재 엔비디아 GPU 중심의 인퍼런스 인프라 시장 구도가 재편될 수 있다. Apache 2.0으로 시작했다는 점에서 개발자 생태계의 빠른 확산이 예상된다.

이어 읽기

관련 읽을거리

전체 보기
2026년 4월 15일Hugging Face State of Open Source Spring 2026 — 오픈 모델 경쟁의 축이 성능에서 주권·배포·파생 생태계로 이동Hugging Face는 2026년 봄 오픈소스 AI 리포트를 통해 2025년 신규 trending model의 다수가 China에서 개발되었거나 China-origin 모델 파생형이었고, Alibaba의 Qwen 계열은 11만 3천 개 이상의 derivative models를 만들었다고 정리했다. 또 1-9B급 모델의 상위군은 100B+ 모델 대비 median 기준 약 4배 높은…2026년 4월 5일Google Gemma 4 공개 — Apache 2.0·256K 컨텍스트·멀티모달, 오픈 에이전틱 모델의 새 기준Google이 4월 2~3일 Gemma 4를 Apache 2.0 라이선스로 공개했다. Effective 2B·4B·26B MoE·31B Dense 네 가지 크기로 제공되며, 256K 토큰 컨텍스트, 비전·오디오 네이티브 멀티모달, 140개 이상 언어를 지원한다.2026년 3월 31일Mistral Voxtral TTS — 4B 오픈소스 음성 합성 모델, ElevenLabs 대비 7~9배 저렴Mistral AI가 3월 26일 오픈소스 텍스트-음성 변환 모델 Voxtral TTS(4B 파라미터)를 출시했다. 9개 언어를 지원하고 5초 이하의 음성 샘플로 목소리를 복제하며, 첫 오디오 출력 지연(TTFA)이 90ms에 불과해 실시간 음성 에이전트 구현이 가능하다.2026년 3월 30일Alibaba Qwen 3.5 소형 모델 공개 — 9B 파라미터로 GPT-OSS-120B 능가, Apache 2.0 오픈소스Alibaba가 0.8B, 2B, 4B, 9B 파라미터 4종의 Qwen 3.5 소형 모델을 Apache 2.0 라이선스로 공개했다. 9B 모델이 GPQA Diamond 벤치마크에서 81.7점을 기록해 GPT-OSS-120B(71.5점)를 13.6% 앞질렀다.