Curated AI Magazine

PICKLEE

AI Field Notes For Builders

Feature Article

Microsoft, MAI 모델 3종 출시 — Foundry를 독자 멀티모달 모델 유통 채널로 본격 전환

Microsoft가 2026년 4월 2일 MAI-Transcribe-1, MAI-Voice-1, MAI-Image-2를 공개했다. 세 모델은 Microsoft Foundry와 MAI Playground에서 즉시 사용 가능하며, MAI-Transcribe-1은 상위 25개 언어 대상 음성 인식, MAI-Voice-1은 1초에 60초 분량 음성 생성, MAI-Image-2는 Copilot과…

Meta

2026년 4월 3일

수정 2026년 4월 3일

원문 링크

배경 및 맥락

Microsoft는 지난 2년간 OpenAI와의 파트너십을 통해 Copilot, Azure OpenAI, Foundry 생태계를 확장해 왔다. 하지만 플랫폼 사업자 관점에서 외부 모델 의존도는 장기적으로 가격, 차별화, 제품 속도 면에서 제약이 될 수밖에 없다. 그래서 최근 Microsoft는 Copilot, Foundry, 자체 AI 연구 조직을 하나의 독립 스택으로 묶는 움직임을 강화하고 있다.

이번 MAI 모델 3종 공개는 그 전략이 실제 제품 라인업으로 드러난 사건이다. 텍스트 범용 LLM보다 먼저 음성 전사, 음성 생성, 이미지 생성처럼 엔터프라이즈 수요가 분명하고 제품 통합 가치가 큰 영역에서 자체 모델을 공급하기 시작했다는 점이 중요하다.


핵심 내용

Microsoft 발표 기준 주요 포인트는 다음과 같다.

  • MAI-Transcribe-1: 상위 25개 언어 대상 speech-to-text 전사 모델
  • FLEURS 기준 11개 핵심 언어에서 1위
  • 나머지 14개 언어에서도 Whisper-large-v3를 모두 앞섬
  • 기존 Azure Fast 전사 대비 batch 속도 2.5배
  • 가격은 시간당 $0.36부터
  • MAI-Voice-1: 자연스러운 장문 음성 생성 모델
  • 1초 만에 60초 분량의 오디오 생성 가능
  • 몇 초 분량 음성 샘플만으로 custom voice 생성 지원
  • 가격은 100만 문자당 $22부터
  • MAI-Image-2: Microsoft의 최신 이미지 생성 모델
  • Arena.ai 상위 3개 모델군 수준으로 소개
  • Foundry와 Copilot에서 최소 2배 빠른 생성 속도
  • Copilot, Bing, PowerPoint로 단계적 확장
  • 가격은 text input 100만 토큰당 $5, image output 100만 토큰당 $33

Microsoft는 이 모델들이 Foundry의 guardrail, governance, enterprise control과 함께 배포된다고 강조했다.


경쟁 구도 / 비교

현재 멀티모달 시장은 음성에서 OpenAI Whisper·ElevenLabs, 이미지에서 OpenAI·Google·Midjourney 계열, 엔터프라이즈 플랫폼에서는 Azure·AWS·Google Cloud가 혼전 양상이다. Microsoft는 이번에 세 영역을 한 번에 묶어 Foundry 채널로 밀어 넣었다.

경쟁 포인트는 세 가지다. 첫째, OpenAI 같은 외부 모델에 대한 내부 의존도를 낮춘다. 둘째, Copilot과 Foundry라는 이미 확보된 배포 채널을 활용한다. 셋째, 단순 품질이 아니라 가격과 속도를 동시에 앞세워 멀티모달 워크로드 원가를 공략한다. 특히 custom voice와 image generation을 하나의 플랫폼 안에 묶는 것은 음성 에이전트와 마케팅 자동화 시장에서 강한 조합이다.


의미

이 발표는 Microsoft가 모델을 호스팅하는 회사에서 모델을 직접 공급하는 회사로 더 분명하게 이동하고 있음을 의미한다. OpenAI와 협력은 유지하더라도, 장기적으로는 자체 모델 포트폴리오가 있어야 플랫폼 주도권을 잡을 수 있기 때문이다.

실무적으로는 멀티모달 스택의 기본 가정이 바뀐다. Azure 사용자라면 텍스트는 OpenAI, 음성은 별도 벤더, 이미지는 또 다른 벤더로 나눠 쓰던 구조를 재검토할 수 있다. 단일 플랫폼 안에서 품질, 지연, 비용, 거버넌스를 함께 비교하는 단계가 시작됐다.

Related

관련 글

2026년 4월 2일

Alibaba Qwen3.6-Plus 공개 — 1M 컨텍스트·에이전트 코딩, Claude Opus 4.5 수준 달성

Alibaba가 2026년 4월 2일 Qwen3.6-Plus를 공개했다. 기본 1M 토큰 컨텍스트 윈도우와 멀티모달 네이티브 지원, 리포지토리 수준 코딩 에이전트 기능을 갖췄으며, SWE-bench와 Terminal-Bench 2.0에서 Anthropic Claude Opus 4.5와 동등한 성능을 기록했다. 🔍 왜 주목해야 하나 이번 릴리즈는 Qwen 시리즈가 단순 벤치마크 경쟁을 넘어…

2026년 4월 2일

Google Gemini 3.1 Flash-Lite 출시 — Pro 대비 1/8 가격에 Gemini 2.5 Flash 동등 성능

Google이 Gemini 3.1 Flash-Lite를 개발자 프리뷰로 출시했다. 입력 $0.25/1M 토큰(Pro의 1/8 수준), 출력 $1.50/1M 토큰이며, Gemini 2.5 Flash 대비 Time to First Token 2.5배 향상, 출력 속도 45% 향상을 달성하면서 핵심 성능 지표에서는 Gemini 2.5 Flash와 동등하다. 🔍 왜 주목해야 하나…

2026년 4월 1일

NVIDIA Nemotron 3 Super — 120B MoE 오픈소스 에이전트 모델, SWE-Bench 60.5% 달성

NVIDIA가 에이전트 워크로드 특화 오픈소스 모델 Nemotron 3 Super를 공개했다. Mamba-Transformer 하이브리드 MoE 아키텍처로 원래 1,200억 파라미터에서 활성 파라미터 120억만 사용, SWE-Bench Verified 60.47% 및 PinchBench 85.6%로 동급 오픈소스 최고 성능을 기록했다. 🔍 왜 주목해야 하나 Nemotron 3 Super는…

2026년 4월 1일

Google TurboQuant — LLM KV 캐시 메모리 6배 압축, H100에서 8배 속도 향상

Google Research가 LLM의 KV 캐시 메모리를 6배 압축하면서 정확도 손실이 없는 알고리즘 TurboQuant를 공개했다. 16비트에서 3비트로의 훈련 없는(training-free) 압축으로 NVIDIA H100에서 최대 8배의 어텐션 연산 속도 향상을 달성하며, ICLR 2026 발표 예정이다. 🔍 왜 주목해야 하나 LLM 추론의 핵심 병목은 메모리 대역폭이며, KV 캐시…

Re-entry

최신 글 재진입

아티클 목록으로