PickleeAI와 개발에 대한 짧은 노트
홈아티클아카이브검색

끝까지 읽는 글

AI와 개발에 관한 변화 중에서 블로그처럼 오래 읽을 수 있는 글만 골라 정리합니다.

© 2026 Picklee

RSSSitemap

글

2026년 5월 11일수정 2026년 5월 11일원문

EMO — MoE가 실제 배포 가능한 모듈형 모델로 진화할 수 있음을 보여준 AllenAI의 오픈 릴리즈

AllenAI는 2026년 5월 8일 EMO를 공개했다. 이 모델은 1B active / 14B total parameter, 128 experts, 1T tokens 규모의 MoE를 문서 단위 shared expert pool 제약으로 학습해, 전체 expert의 12.5%만 사용해도 near full-model 성능을 유지하도록 설계됐다. 🔍 왜 주목해야 하나 지금까지 MoE는…

AI
모델
오픈소스
트렌드

배경 및 맥락

MoE는 오래전부터 큰 모델을 전부 쓰지 않고 필요한 부분만 활성화하자는 약속으로 주목받았지만, 실제 운영에서는 그 약속이 자주 깨졌다. 토큰별 라우팅이 제각각 일어나면 한 작업 안에서도 많은 expert가 동시에 필요해지고, 결국 메모리 절감이나 선택 배포의 이점이 작아진다.

AllenAI의 EMO는 이 한계를 학습 단계에서 바로 겨냥한다. 핵심은 라우터가 문서 단위로 비슷한 expert pool을 쓰도록 약한 제약을 주어, expert가 표면적 어휘 패턴이 아니라 의미 영역과 기능 단위로 스스로 모듈화되게 만드는 것이다.


핵심 내용

EMO는 1B active / 14B total, 128 experts, 1 trillion tokens 규모로 학습됐고, 각 토큰이 독립적으로 expert를 고르는 대신 같은 문서의 토큰이 공유 expert pool 안에서만 라우팅되도록 설계됐다. 그 결과 32개 expert(25%)만 남겨도 평균 성능 저하가 약 1% 수준이고, 16개 expert(12.5%)만 남겨도 약 3% 수준의 하락에 그쳤다. 반면 같은 구조의 표준 MoE baseline은 subset이 작아질수록 성능이 급격히 무너졌다.

또한 AllenAI는 모델뿐 아니라 표준 MoE baseline, 학습 코드, 시각화까지 함께 공개했다. 즉 이 발표는 단일 모델 출시가 아니라 모듈형 sparse model 연구를 재현 가능한 형태로 오픈소스 생태계에 풀어준 사건에 가깝다.


경쟁 구도 / 비교

현재 frontier/open 모델 경쟁은 보통 더 긴 context, 더 높은 벤치마크 점수, 더 저렴한 inference에 집중돼 있다. EMO는 그 축을 같은 모델을 얼마나 잘 쪼개서 쓸 수 있는가로 옮긴다. 이는 dense model을 계속 키우거나, MoE를 단지 학습 효율 개선 수단으로 보는 접근과 결이 다르다.

모듈화가 제대로 성립하면 하나의 거대 모델을 모든 작업에 동일하게 서빙하는 대신, task별 expert subset을 고르는 식으로 memory-accuracy tradeoff를 재설계할 수 있다. 이 점에서 EMO는 serving architecture와 배포 경제성까지 건드린다.


의미

기술적으로는 emergent modularity가 실제 운영 최적화 단위가 될 수 있다는 근거가 생겼다. 산업적으로는 오픈 모델 진영이 단순 성능 경쟁을 넘어 배포 가능한 구조 자체를 혁신하려는 흐름으로 들어가고 있음을 보여준다.

앞으로 엔터프라이즈 AI 팀은 모델 크기와 벤치마크뿐 아니라, 특정 업무에 필요한 capability만 따로 올릴 수 있는지, expert pruning과 routing selection이 얼마나 값싸게 가능한지까지 함께 평가해야 한다.

더 읽기

같이 읽어볼 만한 글

전체 글 보기
2026년 5월 5일

Accelerating Gemma 4: faster inference with multi-token prediction drafters — 오픈모델 경쟁의 기준이 benchmark보다 latency economics로 이동

Google은 2026년 5월 5일 Gemma 4용 Multi-Token Prediction (MTP) drafters를 공개했다. 이 speculative decoding 구조는 Gemma 4 target model과 경량 drafter를 결합해 output 품질 저하 없이 최대 3배 속도 향상을 제공하며, Gemma 4는 출시 수주 만에 6천만 다운로드를 넘겼다고 밝혔다. 🔍 왜…

2026년 4월 25일

Mistral 3 — 오픈 모델 경쟁이 단일 플래그십에서 full-stack open portfolio 전략으로 이동

Mistral AI는 최근 Mistral 3를 공개하며 675B total / 41B active의 Mistral Large 3와 3B·8B·14B 규모의 Ministral 3 시리즈를 함께 내놨다. 전 모델을 Apache 2.0으로 공개하고, Large 3는 8×A100 또는 8×H100 단일 노드 배포 경로, 소형 모델은 edge·robotics 환경까지 겨냥하며 배포 범위를 넓혔다.…

2026년 4월 17일

Mistral Small 4 공개 — 오픈 모델 전략이 단일 체크포인트에서 다기능 통합형 reasoning stack으로 이동

Mistral은 2026년 4월 16일 Mistral Small 4를 발표했다. 이 모델은 119B total parameters, 6B active parameters의 128-expert MoE 구조와 256k context window를 갖고, reasoning·multimodal·agentic coding을 하나로 묶은 Apache 2.0 오픈 모델로 제공된다. 🔍 왜 주목해야…

2026년 4월 15일

Hugging Face State of Open Source Spring 2026 — 오픈 모델 경쟁의 축이 성능에서 주권·배포·파생 생태계로 이동

Hugging Face는 2026년 봄 오픈소스 AI 리포트를 통해 2025년 신규 trending model의 다수가 China에서 개발되었거나 China-origin 모델 파생형이었고, Alibaba의 Qwen 계열은 11만 3천 개 이상의 derivative models를 만들었다고 정리했다. 또 1-9B급 모델의 상위군은 100B+ 모델 대비 median 기준 약 4배 높은…