FEATURE ARTICLE
Alibaba Qwen 3.5 소형 모델 공개 — 9B 파라미터로 GPT-OSS-120B 능가, Apache 2.0 오픈소스
📌 핵심 요약 Alibaba가 0.8B, 2B, 4B, 9B 파라미터 4종의 Qwen 3.5 소형 모델을 Apache 2.0 라이선스로 공개했다. 9B 모델이 GPQA Diamond 벤치마크에서 81.7점을 기록해 GPT-OSS-120B(71.5점)를 13.6% 앞질렀다. 🔍 왜 주목해야 하나 9B 모델이 120B 규모 모델을 정확도에서 앞선다는 것은 단순한 스케일업이 아닌 아키텍처·학습 데이터 큐레이션의 질적 도약을 의미한다. Qwen 시리즈는 이미 오픈소스 LLM 리더보드에서 Meta의 Llama를 추월했으며, 이번 3.5 시리즈로 소형 모델 엣지·온디바이스 배포의 레퍼런스 모델로 자리잡을 가능성이 높다. Apache 2.0 라이선스로 상업적 이용에 제약이 없다는 점도 기업 채택을 가속한다. ⚡ 실무 시사점 온디바이스 AI나 저지연 추론이 필요한 서비스라면 Qwen 3.5 4B~9B 모델을 즉시 평가해볼 것. Llama 3.1 8B 대비 정확도를 비교 테스트하고, 특히 한국어 성능은 별도 벤치마크가 필요하다.
배경 및 맥락
Alibaba의 Qwen 시리즈는 2023년 말 첫 공개 이후 매 세대마다 오픈소스 LLM 벤치마크 기록을 경신해왔다. Qwen 2.5 시리즈(2025년 초)가 Meta의 Llama 3 계열을 여러 벤치마크에서 앞서면서 오픈소스 AI 지형에서 중국 모델의 존재감이 급부상했다. Qwen 3.5는 이 흐름의 연장선에서 소형 모델 효율성에 집중한 릴리즈다.
2026년 3월 1일 공개된 이번 릴리즈는 Hugging Face에 즉시 업로드되어 커뮤니티 반응이 폭발적이었다.
핵심 내용
모델 라인업:
| 모델 | 파라미터 | 주요 용도 |
|---|---|---|
| Qwen3.5-0.8B | 0.8B | 엣지/IoT 디바이스 |
| Qwen3.5-2B | 2B | 모바일 온디바이스 |
| Qwen3.5-4B | 4B | 노트북/저사양 서버 |
| Qwen3.5-9B | 9B | 고성능 추론 |
벤치마크 결과 (GPQA Diamond):
- Qwen3.5-9B: 81.7점
- GPT-OSS-120B: 71.5점
- Meta Llama 3.1 70B: 약 66점 (참고)
라이선스: Apache 2.0 (상업적 이용 무제한)
경쟁 구도 / 비교
Microsoft의 Phi-4(14B), Google의 Gemma 3(27B), Meta의 Llama 3.2(11B)와 직접 경쟁한다. 소형 모델 시장에서는 파라미터당 성능이 핵심 지표인데, Qwen3.5-9B는 이 지표에서 현재 오픈소스 최고 수준이다. 특히 GPQA Diamond(박사급 과학 문제)에서 120B 모델을 앞선다는 점은 데이터 품질과 RLHF 튜닝의 우수성을 방증한다.
의미
소형 LLM의 성능 한계가 빠르게 높아지면서, '성능이 필요하면 대형 모델·비용이 중요하면 소형 모델'이라는 이분법이 무너지고 있다. Qwen3.5-9B는 GPT-4급 지식 추론을 9B 파라미터로 달성해, 기업의 자체 호스팅 비용 구조를 크게 바꿀 수 있다. 또한 Apache 2.0 라이선스는 파인튜닝 후 상업적 판매까지 허용하므로, AI 제품을 내재화하려는 국내 기업에게 실질적인 선택지가 된다.