Feature Article

PrismML Bonsai — 세계 최초 상용 가능 1-bit LLM, iPhone에서 44 tok/s 달성

📌 핵심 요약 PrismML이 2026년 3월 31일 세계 최초로 상용 수준 1-bit LLM 'Bonsai' 시리즈를 공개했다. 8B·4B·1.7B 세 가지 모델을 Apache 2.0 라이센스로 무료 배포하며, 기존 FP16 대비 메모리를 14배 절감하고 추론 속도를 8배 높이면서도 동급 모델과 동일한 벤치마크 성능을 유지한다. 🔍 왜 주목해야 하나 1-bit 양자화는 이론적으로는 오래 검토된 개념이지만, 정확도 손실 없이 상용 수준으로 구현한 것은 이번이 처음이다. Bonsai 8B는 iPhone 17 Pro Max에서 MLX Swift로 44 tok/s로 실행되며, 'Locally AI' 앱이 출시 당일부터 지원에 나서 실제 사용 가능성을 즉시 증명했다. 클라우드 의존 없이 엣지 디바이스에서 모델을 완전 실행하는 시대가 이론이 아닌 현실로 전환되는 변곡점이다. Caltech 기반 연구에서 비롯된 이 기술은 로보틱스, 실시간 에이전트, 모바일 디바이스 전반에 걸쳐 AI 배포 방식을 근본적으로 바꿀 수 있다. ⚡ 실무 시사점 온디바이스 AI를 검토 중인 모바일·로보틱스 개발자라면 Bonsai 8B를 즉시 테스트해볼 것. 클라우드 API 비용 구조를 다시 계산해야 할 시점이 앞당겨졌다.

배경 및 맥락

1-bit LLM 연구는 Microsoft의 BitNet, 퀄컴의 연구 등에서 수년간 진행되어 왔다. 핵심 문제는 가중치를 1-bit으로 양자화할 때 발생하는 정확도 손실이 실용적 수준을 넘어선다는 점이었다. 그간 4-bit, 8-bit 양자화는 상용화에 성공했지만 1-bit은 항상 벤치마크 gap이 컸다.

PrismML은 Caltech 연구 기반의 접근법으로 이 문제를 해결했다. 8B 모델 기준 메모리 사용량을 16GB에서 1GB로 줄이면서, FP16 모델과 벤치마크 parity를 달성했다. 전통적인 양자화 트레이드오프를 깨뜨린 결과다.

핵심 내용

모델 라인업: Bonsai 8B, 4B, 1.7B — Apache 2.0 무료 배포
성능: FP16 대비 14x 메모리 절감, 8x 추론 속도 향상, 벤치마크 동등
엣지 실행: iPhone 17 Pro Max에서 MLX Swift로 44 tok/s 달성
즉시 사용 가능: Hugging Face에서 배포, 출시 당일 'Locally AI' 앱 지원
Hacker News: 365 포인트, 140 댓글로 커뮤니티 반응 뜨거움

경쟁 구도 / 비교

Microsoft BitNet은 1-bit 개념을 선도했지만 상용 수준 성능 및 실용적 배포 패키징에서 한계가 있었다. Qualcomm의 온디바이스 AI 칩 접근법이나 Apple의 Core ML과 달리, Bonsai는 하드웨어 제약 없이 기존 모바일 프레임워크(MLX)에서 동작한다. 비슷한 규모의 Llama 3.1 8B 대비 메모리 효율성에서 압도적 우위를 보인다.

구분	Bonsai 8B	Llama 3.1 8B (FP16)
메모리	1GB	16GB
속도	8x faster	기준
라이센스	Apache 2.0	Llama 라이센스
엣지 실행	iPhone 지원	제한적

의미

온디바이스 AI가 "할 수 있다"는 개념 증명 단계에서 "지금 당장 iPhone에서 돌아간다"는 현실로 이동했다. 클라우드 API 의존도를 낮춰야 하는 기업, 프라이버시 보존이 중요한 헬스케어·금융 AI 애플리케이션, 오프라인 환경의 로보틱스에 즉각적인 실용적 임팩트가 있다. 2026년 하반기 엣지 AI 시장 구도를 바꿀 핵심 기술로 주목된다.

전체 보기

Article

2026년 4월 1일

NVIDIA Nemotron 3 Super — 120B MoE 오픈소스 에이전트 모델, SWE-Bench 60.5% 달성

📌 핵심 요약 NVIDIA가 에이전트 워크로드 특화 오픈소스 모델 Nemotron 3 Super를 공개했다. Mamba-Transformer 하이브리드 MoE 아키텍처로 원래 1,200억 파라미터에서 활성 파라미터 120억만 사용, SWE-Bench Verified 60.47% 및 PinchBench 85.6%로 동급 오픈소스 최고 성능을 기록했다. 🔍 왜 주목해야 하나 Nemotron 3 Super는 단순한 스키 마스탄 모델이 아니라 NVIDIA Blackwell GPU(NVFP4), NeMo 추론 스택, NIM과 수직 통합된 레퍼런스 아키텍처다. Qwen3.5-122B 대비 7.5배의 추론 처리량은 배포 환경에서의 실질적인 TCO 우위를 의미하며, 21가지 강화학습 환경에서의 사후 훈련은 에이전틱 워크로드에 특화됨을 담보한다. 1M 컨텍스트 창과 NVIDIA DGX Spark에서의 로컈 실행 가능성은 온프레미스 배포 시나리오에서의 진지한 대안이 될 수 있다. ⚡ 실무 시사점 오픈소스 에이전트 백본을 검토 중인 팀에게 Nemotron 3 Super는 비용과 성능 양쪽에서 실질적인 선택지다. NVIDIA NIM을 통한 클라운드 API 제공도 지원되므로, 엔터프라이즈 AI 에이전트 파일넷 프로젝트의 후보로 즉시 평가할 것을 권한다.

Read Story

OpenAI, 최초 오픈웨이트 모델 gpt-oss-120b 공개 — Apache 2.0, o4-mini 수준 추론 성능

📌 핵심 요약 OpenAI가 처음으로 오픈웨이트 모델인 gpt-oss-120b(117B 파라미터, MoE)와 gpt-oss-20b를 Apache 2.0 라이선스로 공개했다. 단일 80GB GPU에서 실행 가능하며, 코딩·수학·툴 사용에서 o4-mini와 동등하거나 일부 초과한다. 🔍 왜 주목해야 하나 OpenAI가 '오픈소스 전략 부재'라는 비판을 받아온 상황에서 이번 출시는 단순한 제품 발표를 넘어 전략적 전환점이다. Meta의 Llama 4, Mistral 3와 직접 경쟁하면서 동시에 OpenAI API 생태계에 익숙한 개발자들을 셀프호스팅 워크로드로 끌어들이는 이중 전략이다. MoE 아키텍처로 5.1B 파라미터만 활성화해 추론 비용을 대폭 낮춘 점도 기술적으로 주목할 만하다. ⚡ 실무 시사점 Responses API와 완전 호환되어 기존 OpenAI 코드베이스에서 엔드포인트 교체만으로 셀프호스팅 전환이 가능하다. 규제 또는 프라이버시 이유로 클라우드 API를 사용하지 못하는 기업 환경에서 OpenAI 수준의 성능을 온프레미스로 배포할 수 있는 첫 번째 현실적 옵션이 생겼다.

자동수집

Read Story

Article

2026년 3월 31일

Google TurboQuant — KV 캐시를 3비트로 6배 압축, 재학습 없이 H100에서 8배 처리량

📌 핵심 요약 Google의 TurboQuant가 ICLR 2026에서 발표될 예정이다. LLM의 KV 캐시를 3~4비트로 압축해 메모리를 4~6배 절감하면서 정확도 손실이 전혀 없고, H100 GPU에서 32-bit 대비 최대 8배 처리량 향상을 달성한다. 🔍 왜 주목해야 하나 LLM 서빙 인프라의 주요 병목은 긴 컨텍스트 처리 시 KV 캐시가 GPU 메모리를 폭발적으로 소모하는 문제다. TurboQuant는 재학습·파인튜닝 없이 사후처리(post-processing) 방식으로 Gemma, Mistral 등 기존 오픈소스 모델에 바로 적용 가능해 실용성이 높다. 이미 PyTorch 구현체와 vLLM 통합 버전이 GitHub에 공개됐고, llama.cpp 커뮤니티에서도 통합 논의가 진행 중이다. 메모리 절감은 동일 GPU 자원으로 더 많은 동시 요청 처리 가능으로 직결된다. ⚡ 실무 시사점 LLM 추론 인프라를 운영 중인 팀은 vLLM + TurboQuant 통합 레포를 즉시 테스트 환경에 적용해 KV 캐시 메모리 감소 폭과 실제 처리량 향상을 측정해볼 가치가 충분하다.

모델

Read Story

Article

2026년 3월 31일

Mistral Voxtral TTS — 4B 오픈소스 음성 합성 모델, ElevenLabs 대비 7~9배 저렴

📌 핵심 요약 Mistral AI가 3월 26일 오픈소스 텍스트-음성 변환 모델 Voxtral TTS(4B 파라미터)를 출시했다. 9개 언어를 지원하고 5초 이하의 음성 샘플로 목소리를 복제하며, 첫 오디오 출력 지연(TTFA)이 90ms에 불과해 실시간 음성 에이전트 구현이 가능하다. 🔍 왜 주목해야 하나 TTS 시장은 ElevenLabs, Deepgram, OpenAI가 독점하다시피 한 유료 API 시장이었다. Voxtral은 HuggingFace에 가중치를 CC BY NC 4.0으로 공개하고 API는 $0.016/1k 문자로 ElevenLabs($0.11~0.15/1k) 대비 약 7~9배 저렴하다. 4B 파라미터의 작은 규모는 엣지 디바이스(스마트폰, 노트북) 배포를 현실적으로 만들고, RTF 6x는 실시간 음성 에이전트에 충분한 성능이다. ⚡ 실무 시사점 음성 에이전트나 고객 응대 봇을 구축 중이라면 ElevenLabs와의 비용 구조 비교 검토를 즉시 진행해야 한다. 지원 언어 목록 및 한국어 포함 여부를 확인 후 로드맵에 반영할 것을 권장한다.

모델

Read Story

Re-entry

PrismML Bonsai — 세계 최초 상용 가능 1-bit LLM, iPhone에서 44 tok/s 달성

배경 및 맥락

핵심 내용

경쟁 구도 / 비교

의미

관련 글

NVIDIA Nemotron 3 Super — 120B MoE 오픈소스 에이전트 모델, SWE-Bench 60.5% 달성

OpenAI, 최초 오픈웨이트 모델 gpt-oss-120b 공개 — Apache 2.0, o4-mini 수준 추론 성능

Google TurboQuant — KV 캐시를 3비트로 6배 압축, 재학습 없이 H100에서 8배 처리량

Mistral Voxtral TTS — 4B 오픈소스 음성 합성 모델, ElevenLabs 대비 7~9배 저렴

최신 글 재진입