글
Mistral Voxtral TTS — 4B 오픈소스 음성 합성 모델, ElevenLabs 대비 7~9배 저렴
Mistral AI가 3월 26일 오픈소스 텍스트-음성 변환 모델 Voxtral TTS(4B 파라미터)를 출시했다. 9개 언어를 지원하고 5초 이하의 음성 샘플로 목소리를 복제하며, 첫 오디오 출력 지연(TTFA)이 90ms에 불과해 실시간 음성 에이전트 구현이 가능하다. 🔍 왜 주목해야 하나 TTS 시장은 ElevenLabs, Deepgram, OpenAI가 독점하다시피 한 유료 API…
배경 및 맥락
20252026년 AI 에이전트 붐과 함께 음성 인터페이스 수요가 폭발적으로 증가했다. 고객 응대 자동화, 음성 어시스턴트, 접근성 도구 등 다양한 분야에서 자연스러운 TTS 모델이 필수 인프라로 자리 잡고 있다. 그러나 기존 고품질 TTS 솔루션은 ElevenLabs($0.110.15/1k 문자), Deepgram, OpenAI TTS 등 고가의 유료 API에 집중되어 있었다.
Mistral AI는 음성 인식 모델 Voxtral(STT)에 이어 이번에 반대 방향인 음성 합성(TTS) 모델을 공개하며 음성 AI 풀스택 역량을 갖추게 됐다.
핵심 내용
모델 스펙:
- 파라미터: 4B (엣지 배포 가능한 경량 규모)
- 지원 언어: 9개 — 영어, 프랑스어, 독일어, 스페인어, 네덜란드어, 포르투갈어, 이탈리아어, 힌디어, 아랍어
- TTFA(첫 오디오 출력 지연): 90ms (500자 기준 10초 샘플)
- RTF(실시간 배율): 6x (10초 클릭을 약 1.6초에 생성)
음성 복제:
- 5초 미만의 음성 샘플로 목소리 클로닝 가능
- 억양, 어조, 발화 특성까지 포착
라이선스 및 가격:
- 오픈 가중치: HuggingFace (mistralai/Voxtral-4B-TTS-2603) — CC BY NC 4.0
- API 가격: $0.016/1k 문자 (ElevenLabs 대비 7~9배 저렴)
경쟁 구도 / 비교
| 서비스 | 가격 (1k 문자) | 오픈 가중치 | 엣지 배포 |
|---|---|---|---|
| ElevenLabs | $0.11~0.15 | X | X |
| OpenAI TTS | X | X | |
| Deepgram Aura | ~$0.015 | X | X |
| Voxtral TTS | $0.016 | O | O |
Voxtral의 핵심 차별점은 가격 경쟁력보다 '오픈 가중치 + 엣지 배포 가능성'의 조합이다. 기업이 모델을 자체 인프라에 호스팅하면 API 비용 자체를 제거할 수 있다.
의미
TTS 시장에서 오픈소스 경쟁이 본격화됐다. ElevenLabs는 음성 복제 품질과 감정 표현에서 여전히 앞서지만, 비용 민감한 스타트업과 엔터프라이즈 팀에게 Voxtral은 즐각적인 대안이 된다. 더 중요한 점은 이 모델이 완전 오프라인 음성 에이전트 구현을 가능하게 한다는 것이다 — 데이터가 외부 API로 나가지 않아도 되는 보안·규정 준수 요구사항이 있는 환경에서 특히 중요하다.