Feature Article
PrismML, Bonsai 1-bit LLM 출시 — 1GB 메모리로 8B 추론, 엣지 AI의 현실화
배경 및 맥락
2023년 Microsoft Research가 BitNet 논문을 발표한 이후, AI 연구 커뮤니티는 모델 가중치를 1-bit(−1 또는 +1)로 표현할 경우 메모리와 연산량을 극적으로 절감할 수 있다는 가능성에 주목했다. 2024년 BitNet b1.58(1-bit 또는 0 값을 허용하는 삼진법 변형)이 등장했지만, 여전히 실용적 추론 품질과 기존 하드웨어 호환성에서 한계가 있었다.
한편 클라우드 LLM API 의존에 대한 우려가 높아지면서, 프라이버시·비용·오프라인 요구사항을 충족하는 온디바이스 AI에 대한 수요가 급증했다. Apple이 iPhone에 온디바이스 모델을 적극 통합하고, 퀄컴·미디어텍이 NPU를 강화하는 흐름이 이 시장을 키웠다. PrismML은 이 공백을 정확히 겨냥하며 스텔스 출발했다.
핵심 내용
Bonsai 모델 패밀리 스펙:
- Bonsai 1.7B — 메모리 0.24GB, 가장 경량
- Bonsai 4B — 메모리 0.5GB
- Bonsai 8B (플래그십) — 메모리 1.15GB
FP16 8B 모델 대비 성능 비교:
| 지표 | FP16 8B | Bonsai 8B |
|---|---|---|
| 메모리 | ~16GB | 1.15GB |
| 추론 속도 | 기준 | 8배 빠름 |
| 에너지 소비 | 기준 | 5배 낮음 |
| 추론 품질 | 기준 | 동급 |
기술 접근법:
기존 FP16/FP32 모델을 양자화(quantization)하는 방식이 아닌, 처음부터 1-bit 구조로 학습(native 1-bit training)하는 방식을 채택했다. Caltech에서 개발된 독자 학습 알고리즘으로, 1-bit 제약 하에서도 그래디언트 흐름과 표현력을 유지하는 것이 핵심이다.
라이선스 및 가용성:
- Apache 2.0 라이선스로 무료 공개
- Hugging Face에서 즉시 다운로드 가능
- Apple Silicon(MLX), x86, ARM 지원
경쟁 구도 / 비교
PrismML 이전까지 실용적인 소형 모델 경쟁은 주로 4-bit 양자화 영역에서 벌어졌다. llama.cpp의 Q4_K_M 양자화가 8B 모델을 약 4~5GB로 줄이는 것이 최선이었다. Bonsai 8B의 1.15GB는 이보다 4배 이상 작다.
Google Gemma 4 E2B나 Microsoft Phi-4가 소형 고성능 모델 시장을 겨냥하지만, 두 모델 모두 FP16/BF16 기반으로 최소 수 GB의 메모리를 요구한다. Bonsai의 1GB 미만 8B 모델은 카테고리 자체가 다르다.
의미
1-bit LLM의 상용 출시는 AI 인퍼런스 비용 구조를 근본적으로 바꿀 가능성을 열었다. 단기적으로는 오프라인 의료 기기, 산업용 IoT, 저연결 환경의 AI 솔루션 시장이 직접적인 수혜를 받는다. 중장기적으로는 AI 칩 아키텍처 설계에서 1-bit 연산 최적화가 주류가 될 경우, 현재 엔비디아 GPU 중심의 인퍼런스 인프라 시장 구도가 재편될 수 있다. Apache 2.0으로 시작했다는 점에서 개발자 생태계의 빠른 확산이 예상된다.