PickleeAI와 개발에 대한 짧은 노트
홈아티클아카이브검색

끝까지 읽는 글

AI와 개발에 관한 변화 중에서 블로그처럼 오래 읽을 수 있는 글만 골라 정리합니다.

© 2026 Picklee

RSSSitemap

글

2026년 3월 30일수정 2026년 3월 30일원문

Mistral Small 4, 119B MoE 모델 Apache 2.0 오픈소스 출시 — GPT-OSS 120B 능가하며 추론 효율도 앞서

Mistral AI가 3월 중순 출시한 Mistral Small 4는 119B 파라미터 Mixture-of-Experts(MoE) 구조의 오픈소스 모델로, Apache 2.0 라이선스 하에 상업적 무제한 사용이 가능하며 토큰당 활성 파라미터는 6B에 불과해 추론 속도가 매우 빠르다. 🔍 왜 주목해야 하나 기존 오픈소스 모델들이 성능과 라이선스 유연성 사이에서 트레이드오프를 강요받아…

AI
오픈소스
모델
무료

배경 및 맥락

Mistral AI는 2024년부터 일관되게 '작지만 강한' 모델 전략을 유지해왔다. Mistral 7B, Mixtral 8x7B, Mistral Small 3을 거치며 각 릴리즈마다 더 큰 클로즈드 모델들과 경쟁하는 오픈소스 모델을 공급했다. 2026년 3월, Mistral Small 4는 이 전략의 정점으로, 총 119B 파라미터 MoE 구조를 채택하면서도 Apache 2.0 라이선스를 유지해 완전한 상업적 활용 자유를 보장한다.

오픈소스 AI 모델 생태계에서는 Meta의 Llama 4 Scout(10M 토큰 컨텍스트)이 파라미터 규모로 화제를 모았지만, Mistral Small 4는 활성 파라미터(6B)의 효율성을 앞세운 차별화 전략을 택했다.


핵심 내용

아키텍처 사양

  • 총 파라미터: 119B (MoE: 128 experts, 토큰당 4개 활성)
  • 활성 파라미터: 6B (임베딩 포함 8B)
  • 컨텍스트 윈도우: 256K 토큰
  • 라이선스: Apache 2.0

성능 벤치마크

  • AA LCR(Long Context Reasoning): 0.72점 (GPT-OSS 120B, Qwen 동급) — 출력 문자 수는 1.6K로 경쟁 모델(5.8~6.1K)의 1/4
  • LiveCodeBench: GPT-OSS 120B 초과, 출력량 20% 절감
  • Mistral Small 3 대비: 레이턴시 40% 감소, 처리량 3배 향상

핵심 기능

  • Configurable Reasoning Effort: 저레이턴시 즉시 응답 ↔ 심층 추론(chain-of-thought) 모드 동적 전환
  • 멀티모달 지원: 텍스트 + 이미지 입력
  • Tool Use / Function Calling 최적화

경쟁 구도 / 비교

모델총 파라미터활성 파라미터라이선스특징
Mistral Small 4119B6BApache 2.0효율 우선, 상업 무제한
Llama 4 Scout109B17BLlama 4 커뮤니티10M 토큰 컨텍스트
GPT-OSS 120B~120B미공개제한적 상업OpenAI 오픈웨이트
Qwen 2.5 72B72B72BApache 2.0코딩 특화

의미

Mistral Small 4의 출시는 오픈소스 생태계에서 MoE 아키텍처가 '효율의 표준'으로 자리잡고 있음을 재확인한다. 6B 활성 파라미터로 120B 클로즈드 모델과 경쟁하는 것은 추론 인프라 비용 절감 측면에서 엔터프라이즈 채택을 빠르게 앞당길 수 있다. Apache 2.0 라이선스는 SaaS 제품에 내장하거나 온프레미스 배포 시 법적 리스크를 제로화하며, 이는 Mistral이 클로즈드 모델 공급자 대비 지속적으로 강조하는 핵심 차별점이다.

더 읽기

같이 읽어볼 만한 글

전체 글 보기
2026년 4월 5일

Google Gemma 4 공개 — Apache 2.0·256K 컨텍스트·멀티모달, 오픈 에이전틱 모델의 새 기준

Google이 4월 2~3일 Gemma 4를 Apache 2.0 라이선스로 공개했다. Effective 2B·4B·26B MoE·31B Dense 네 가지 크기로 제공되며, 256K 토큰 컨텍스트, 비전·오디오 네이티브 멀티모달, 140개 이상 언어를 지원한다. 🔍 왜 주목해야 하나 Gemma 4는 Gemini 3와 동일한 연구 기반으로 제작됐으면서 상업 제한 없는 Apache 2.0으로…

2026년 4월 5일

PrismML, Bonsai 1-bit LLM 출시 — 1GB 메모리로 8B 추론, 엣지 AI의 현실화

PrismML이 4월 3일 스텔스에서 등장해 세계 최초 상업적으로 실행 가능한 1-bit LLM 패밀리 Bonsai를 Apache 2.0으로 공개했다. 플래그십인 Bonsai 8B는 1.15GB 메모리에 구동되며, FP16 8B 모델 대비 14배 소형·8배 빠른 속도·5배 낮은 에너지 소비를 달성하면서 추론 품질은 동급 수준을 유지한다. 🔍 왜 주목해야 하나 1-bit LLM은…

2026년 3월 31일

Mistral Voxtral TTS — 4B 오픈소스 음성 합성 모델, ElevenLabs 대비 7~9배 저렴

Mistral AI가 3월 26일 오픈소스 텍스트-음성 변환 모델 Voxtral TTS(4B 파라미터)를 출시했다. 9개 언어를 지원하고 5초 이하의 음성 샘플로 목소리를 복제하며, 첫 오디오 출력 지연(TTFA)이 90ms에 불과해 실시간 음성 에이전트 구현이 가능하다. 🔍 왜 주목해야 하나 TTS 시장은 ElevenLabs, Deepgram, OpenAI가 독점하다시피 한 유료 API…

2026년 3월 30일

Alibaba Qwen 3.5 소형 모델 공개 — 9B 파라미터로 GPT-OSS-120B 능가, Apache 2.0 오픈소스

Alibaba가 0.8B, 2B, 4B, 9B 파라미터 4종의 Qwen 3.5 소형 모델을 Apache 2.0 라이선스로 공개했다. 9B 모델이 GPQA Diamond 벤치마크에서 81.7점을 기록해 GPT-OSS-120B(71.5점)를 13.6% 앞질렀다. 🔍 왜 주목해야 하나 9B 모델이 120B 규모 모델을 정확도에서 앞선다는 것은 단순한 스케일업이 아닌 아키텍처·학습 데이터…