FEATURE ARTICLE
Mistral Small 4, 119B MoE 모델 Apache 2.0 오픈소스 출시 — GPT-OSS 120B 능가하며 추론 효율도 앞서
📌 핵심 요약 Mistral AI가 3월 중순 출시한 Mistral Small 4는 119B 파라미터 Mixture-of-Experts(MoE) 구조의 오픈소스 모델로, Apache 2.0 라이선스 하에 상업적 무제한 사용이 가능하며 토큰당 활성 파라미터는 6B에 불과해 추론 속도가 매우 빠르다. 🔍 왜 주목해야 하나 기존 오픈소스 모델들이 성능과 라이선스 유연성 사이에서 트레이드오프를 강요받아 왔다면, Mistral Small 4는 GPT-OSS 120B, Qwen 시리즈와 비교해 동등하거나 우월한 벤치마크 성능을 20~40% 적은 토큰 출력으로 달성한다. LiveCodeBench에서 GPT-OSS 120B를 초과 달성하면서도 출력량이 20% 적다는 점은 비용 효율 면에서 두드러진다. 128K 컨텍스트 윈도우와 configurable reasoning effort(빠른 응답 ↔ 심층 추론 모드 전환)도 프로덕션 유연성을 높인다. ⚡ 실무 시사점 GPU 비용에 민감한 팀이라면 Mistral Small 3 대비 40% 낮은 레이턴시와 3배 처리량을 제공하는 Small 4로 마이그레이션을 검토할 시점이다. Apache 2.0이므로 온프레미스 배포 시 라이선스 리스크가 없다.
배경 및 맥락
Mistral AI는 2024년부터 일관되게 '작지만 강한' 모델 전략을 유지해왔다. Mistral 7B, Mixtral 8x7B, Mistral Small 3을 거치며 각 릴리즈마다 더 큰 클로즈드 모델들과 경쟁하는 오픈소스 모델을 공급했다. 2026년 3월, Mistral Small 4는 이 전략의 정점으로, 총 119B 파라미터 MoE 구조를 채택하면서도 Apache 2.0 라이선스를 유지해 완전한 상업적 활용 자유를 보장한다.
오픈소스 AI 모델 생태계에서는 Meta의 Llama 4 Scout(10M 토큰 컨텍스트)이 파라미터 규모로 화제를 모았지만, Mistral Small 4는 활성 파라미터(6B)의 효율성을 앞세운 차별화 전략을 택했다.
핵심 내용
아키텍처 사양
- 총 파라미터: 119B (MoE: 128 experts, 토큰당 4개 활성)
- 활성 파라미터: 6B (임베딩 포함 8B)
- 컨텍스트 윈도우: 256K 토큰
- 라이선스: Apache 2.0
성능 벤치마크
- AA LCR(Long Context Reasoning): 0.72점 (GPT-OSS 120B, Qwen 동급) — 출력 문자 수는 1.6K로 경쟁 모델(5.8~6.1K)의 1/4
- LiveCodeBench: GPT-OSS 120B 초과, 출력량 20% 절감
- Mistral Small 3 대비: 레이턴시 40% 감소, 처리량 3배 향상
핵심 기능
- Configurable Reasoning Effort: 저레이턴시 즉시 응답 ↔ 심층 추론(chain-of-thought) 모드 동적 전환
- 멀티모달 지원: 텍스트 + 이미지 입력
- Tool Use / Function Calling 최적화
경쟁 구도 / 비교
| 모델 | 총 파라미터 | 활성 파라미터 | 라이선스 | 특징 |
|---|---|---|---|---|
| Mistral Small 4 | 119B | 6B | Apache 2.0 | 효율 우선, 상업 무제한 |
| Llama 4 Scout | 109B | 17B | Llama 4 커뮤니티 | 10M 토큰 컨텍스트 |
| GPT-OSS 120B | ~120B | 미공개 | 제한적 상업 | OpenAI 오픈웨이트 |
| Qwen 2.5 72B | 72B | 72B | Apache 2.0 | 코딩 특화 |
의미
Mistral Small 4의 출시는 오픈소스 생태계에서 MoE 아키텍처가 '효율의 표준'으로 자리잡고 있음을 재확인한다. 6B 활성 파라미터로 120B 클로즈드 모델과 경쟁하는 것은 추론 인프라 비용 절감 측면에서 엔터프라이즈 채택을 빠르게 앞당길 수 있다. Apache 2.0 라이선스는 SaaS 제품에 내장하거나 온프레미스 배포 시 법적 리스크를 제로화하며, 이는 Mistral이 클로즈드 모델 공급자 대비 지속적으로 강조하는 핵심 차별점이다.