PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 4월 2일

PrismML Bonsai — 세계 최초 상용 가능 1-bit LLM, iPhone에서 44 tok/s 달성

PrismML이 2026년 3월 31일 세계 최초로 상용 수준 1-bit LLM 'Bonsai' 시리즈를 공개했다. 8B·4B·1.7B 세 가지 모델을 Apache 2.0 라이센스로 무료 배포하며, 기존 FP16 대비 메모리를 14배 절감하고 추론 속도를 8배 높이면서도 동급 모델과 동일한 벤치마크 성능을 유지한다.

본문 읽기원문 보기

발행일

2026년 4월 2일

업데이트

2026년 4월 2일

주제

AI
오픈소스
모델
원문 보기

배경 및 맥락

1-bit LLM 연구는 Microsoft의 BitNet, 퀄컴의 연구 등에서 수년간 진행되어 왔다. 핵심 문제는 가중치를 1-bit으로 양자화할 때 발생하는 정확도 손실이 실용적 수준을 넘어선다는 점이었다. 그간 4-bit, 8-bit 양자화는 상용화에 성공했지만 1-bit은 항상 벤치마크 gap이 컸다.

PrismML은 Caltech 연구 기반의 접근법으로 이 문제를 해결했다. 8B 모델 기준 메모리 사용량을 16GB에서 1GB로 줄이면서, FP16 모델과 벤치마크 parity를 달성했다. 전통적인 양자화 트레이드오프를 깨뜨린 결과다.


핵심 내용

  • 모델 라인업: Bonsai 8B, 4B, 1.7B — Apache 2.0 무료 배포
  • 성능: FP16 대비 14x 메모리 절감, 8x 추론 속도 향상, 벤치마크 동등
  • 엣지 실행: iPhone 17 Pro Max에서 MLX Swift로 44 tok/s 달성
  • 즉시 사용 가능: Hugging Face에서 배포, 출시 당일 'Locally AI' 앱 지원
  • Hacker News: 365 포인트, 140 댓글로 커뮤니티 반응 뜨거움

경쟁 구도 / 비교

Microsoft BitNet은 1-bit 개념을 선도했지만 상용 수준 성능 및 실용적 배포 패키징에서 한계가 있었다. Qualcomm의 온디바이스 AI 칩 접근법이나 Apple의 Core ML과 달리, Bonsai는 하드웨어 제약 없이 기존 모바일 프레임워크(MLX)에서 동작한다. 비슷한 규모의 Llama 3.1 8B 대비 메모리 효율성에서 압도적 우위를 보인다.

구분Bonsai 8BLlama 3.1 8B (FP16)
메모리1GB16GB
속도8x faster기준
라이센스Apache 2.0Llama 라이센스
엣지 실행iPhone 지원제한적

의미

온디바이스 AI가 "할 수 있다"는 개념 증명 단계에서 "지금 당장 iPhone에서 돌아간다"는 현실로 이동했다. 클라우드 API 의존도를 낮춰야 하는 기업, 프라이버시 보존이 중요한 헬스케어·금융 AI 애플리케이션, 오프라인 환경의 로보틱스에 즉각적인 실용적 임팩트가 있다. 2026년 하반기 엣지 AI 시장 구도를 바꿀 핵심 기술로 주목된다.

이어 읽기

관련 읽을거리

전체 보기
2026년 6월 27일DeepSpec - speculative decoding becomes an open production optimization stackDeepSeek은 speculative decoding draft model을 훈련하고 평가하기 위한 MIT-licensed DeepSpec repository를 공개했다. README 기준 DeepSpec은 data preparation, draft model implementation, training, evaluation scripts를 포함하며 DSpark, DFlash,…2026년 6월 25일GLM-5.2 - open long-context models push agentic coding toward 1M-token workspacesZ.AI는 GLM-5.2를 공개하며 1M-token context, flexible effort levels, MIT license, long-horizon coding benchmark 성능을 전면에 내세웠다. 공개 글은 IndexShare로 1M context에서 per-token FLOPs를 2.9x 줄이고, Terminal Bench 2.1 81.0, SWE-bench Pro…2026년 6월 24일Kog Laneformer 2B - latency-first coding models move architecture into the serving layerKog는 Hugging Face에 Laneformer 2B의 weights와 model code를 공개했다. 이 모델은 2.3B parameter instruction-tuned coding model로, Delayed Tensor Parallelism과 lane-structured Transformer를 통해 batch-size-one decoding latency를 모델 아키텍처…2026년 6월 24일Krea 2 technical report - open image models compete on creative control, not only fidelityKrea는 Krea 2 technical report를 공개하며 K2 Raw와 K2 Turbo 계열의 open-weights text-to-image foundation model을 설명했다. 보고서는 data curation, diffusion transformer architecture, multi-stage training, prompt expander, style-reference…