글
Alibaba Qwen 3.5 소형 모델 공개 — 9B 파라미터로 GPT-OSS-120B 능가, Apache 2.0 오픈소스
Alibaba가 0.8B, 2B, 4B, 9B 파라미터 4종의 Qwen 3.5 소형 모델을 Apache 2.0 라이선스로 공개했다. 9B 모델이 GPQA Diamond 벤치마크에서 81.7점을 기록해 GPT-OSS-120B(71.5점)를 13.6% 앞질렀다. 🔍 왜 주목해야 하나 9B 모델이 120B 규모 모델을 정확도에서 앞선다는 것은 단순한 스케일업이 아닌 아키텍처·학습 데이터…
배경 및 맥락
Alibaba의 Qwen 시리즈는 2023년 말 첫 공개 이후 매 세대마다 오픈소스 LLM 벤치마크 기록을 경신해왔다. Qwen 2.5 시리즈(2025년 초)가 Meta의 Llama 3 계열을 여러 벤치마크에서 앞서면서 오픈소스 AI 지형에서 중국 모델의 존재감이 급부상했다. Qwen 3.5는 이 흐름의 연장선에서 소형 모델 효율성에 집중한 릴리즈다.
2026년 3월 1일 공개된 이번 릴리즈는 Hugging Face에 즉시 업로드되어 커뮤니티 반응이 폭발적이었다.
핵심 내용
모델 라인업:
| 모델 | 파라미터 | 주요 용도 |
|---|---|---|
| Qwen3.5-0.8B | 0.8B | 엣지/IoT 디바이스 |
| Qwen3.5-2B | 2B | 모바일 온디바이스 |
| Qwen3.5-4B | 4B | 노트북/저사양 서버 |
| Qwen3.5-9B | 9B | 고성능 추론 |
벤치마크 결과 (GPQA Diamond):
- Qwen3.5-9B: 81.7점
- GPT-OSS-120B: 71.5점
- Meta Llama 3.1 70B: 약 66점 (참고)
라이선스: Apache 2.0 (상업적 이용 무제한)
경쟁 구도 / 비교
Microsoft의 Phi-4(14B), Google의 Gemma 3(27B), Meta의 Llama 3.2(11B)와 직접 경쟁한다. 소형 모델 시장에서는 파라미터당 성능이 핵심 지표인데, Qwen3.5-9B는 이 지표에서 현재 오픈소스 최고 수준이다. 특히 GPQA Diamond(박사급 과학 문제)에서 120B 모델을 앞선다는 점은 데이터 품질과 RLHF 튜닝의 우수성을 방증한다.
의미
소형 LLM의 성능 한계가 빠르게 높아지면서, '성능이 필요하면 대형 모델·비용이 중요하면 소형 모델'이라는 이분법이 무너지고 있다. Qwen3.5-9B는 GPT-4급 지식 추론을 9B 파라미터로 달성해, 기업의 자체 호스팅 비용 구조를 크게 바꿀 수 있다. 또한 Apache 2.0 라이선스는 파인튜닝 후 상업적 판매까지 허용하므로, AI 제품을 내재화하려는 국내 기업에게 실질적인 선택지가 된다.