배경 및 맥락
1-bit LLM 연구는 Microsoft의 BitNet, 퀄컴의 연구 등에서 수년간 진행되어 왔다. 핵심 문제는 가중치를 1-bit으로 양자화할 때 발생하는 정확도 손실이 실용적 수준을 넘어선다는 점이었다. 그간 4-bit, 8-bit 양자화는 상용화에 성공했지만 1-bit은 항상 벤치마크 gap이 컸다.
PrismML은 Caltech 연구 기반의 접근법으로 이 문제를 해결했다. 8B 모델 기준 메모리 사용량을 16GB에서 1GB로 줄이면서, FP16 모델과 벤치마크 parity를 달성했다. 전통적인 양자화 트레이드오프를 깨뜨린 결과다.
핵심 내용
- 모델 라인업: Bonsai 8B, 4B, 1.7B — Apache 2.0 무료 배포
- 성능: FP16 대비 14x 메모리 절감, 8x 추론 속도 향상, 벤치마크 동등
- 엣지 실행: iPhone 17 Pro Max에서 MLX Swift로 44 tok/s 달성
- 즉시 사용 가능: Hugging Face에서 배포, 출시 당일 'Locally AI' 앱 지원
- Hacker News: 365 포인트, 140 댓글로 커뮤니티 반응 뜨거움
경쟁 구도 / 비교
Microsoft BitNet은 1-bit 개념을 선도했지만 상용 수준 성능 및 실용적 배포 패키징에서 한계가 있었다. Qualcomm의 온디바이스 AI 칩 접근법이나 Apple의 Core ML과 달리, Bonsai는 하드웨어 제약 없이 기존 모바일 프레임워크(MLX)에서 동작한다. 비슷한 규모의 Llama 3.1 8B 대비 메모리 효율성에서 압도적 우위를 보인다.
| 구분 | Bonsai 8B | Llama 3.1 8B (FP16) |
|---|---|---|
| 메모리 | 1GB | 16GB |
| 속도 | 8x faster | 기준 |
| 라이센스 | Apache 2.0 | Llama 라이센스 |
| 엣지 실행 | iPhone 지원 | 제한적 |
의미
온디바이스 AI가 "할 수 있다"는 개념 증명 단계에서 "지금 당장 iPhone에서 돌아간다"는 현실로 이동했다. 클라우드 API 의존도를 낮춰야 하는 기업, 프라이버시 보존이 중요한 헬스케어·금융 AI 애플리케이션, 오프라인 환경의 로보틱스에 즉각적인 실용적 임팩트가 있다. 2026년 하반기 엣지 AI 시장 구도를 바꿀 핵심 기술로 주목된다.