FEATURE ARTICLE
Mistral Voxtral TTS 공개 — 5초 샘플로 음성 복제, 9개 언어 엣지 배포 가능
📌 핵심 요약 Mistral AI가 2026년 3월 26일 오픈소스 TTS(텍스트-음성 변환) 모델 Voxtral TTS를 공개했다. Ministral 3B 기반으로 영어·프랑스어·독일어 등 9개 언어를 지원하며, 5초 미만의 음성 샘플로 커스텀 음성 복제가 가능하다. 첫 음성까지 지연(TTFA)은 90ms, 실시간 팩터(RTF)는 6x를 달성했다. 🔍 왜 주목해야 하나 오픈소스 TTS 시장은 그간 ElevenLabs, OpenAI TTS, Cartesia 등 유료 클라우드 서비스가 주도해왔다. Voxtral TTS가 스마트워치까지 구동 가능한 경량성을 확보하면서 엣지 디바이스 배포가 가능해진 것은 기업용 고객 지원, 실시간 더빙, 다국어 AI 에이전트 시나리오에서 인프라 비용 구조를 근본적으로 바꿀 수 있다. Creative Commons 라이선스로 Hugging Face에서 즉시 다운로드 가능하다. ⚡ 실무 시사점 음성 기능이 필요한 AI 에이전트나 챗봇을 운영 중이라면 기존 유료 TTS API를 Voxtral로 대체해 비용을 절감할 수 있다. 특히 다국어 실시간 번역·더빙 시나리오나 온프레미스 음성 에이전트 배포 요건이 있는 경우 PoC를 즉시 시작할 것을 권장한다.