
Mistral vydal open-source hlasový model Voxtral TTS. V testech porazil ElevenLabs
Mistral AI uvolnil váhy prvního TTS modelu z dílny evropského AI labu. Voxtral TTS v human evaluation testech překonal ElevenLabs Flash v2.5 ve více než 63 % případů a jde spustit lokálně na spotřebitelském hardware.
Foto: Mistral AI
Tento článek vznikl agregací informací z veřejně dostupných zdrojů. Nejsme primární zdroj — původní zdroje najdete níže. Mohou vzniknout nepřesnosti.
Tento článek vznikl agregací informací z veřejně dostupných zdrojů. Nejsme primární zdroj — původní zdroje najdete níže. Mohou vzniknout nepřesnosti.
Mistral AI vydal 23. března 2026 model Voxtral-4B-TTS-2603, první text-to-speech model v portfoliu francouzského labu. Model s objemem 4 miliard parametrů podporuje 9 jazyků a běží na jednom GPU s 16 GB paměti nebo v přibližně 3 GB RAM při lokálním nasazení.
Klíčovou capability je zero-shot voice cloning: Voxtral TTS klonuje hlas z pouhých 3 sekund referenčního audia. Na SEED-TTS benchmarku dosáhl model word error rate 1,23 % oproti 1,26 % u ElevenLabs v3, s speaker similarity score 0,628. V blind listening testech lidé preferovali Voxtral TTS nad ElevenLabs Flash v2.5 ve 63 % případů u standardních hlasů a v 68,4 % případů u testů přizpůsobení hlasu. Latence modelu pro typický 10sekundový vzorek ze 500 znaků vstupu je 70 ms.
Výstupní formáty zahrnují WAV, PCM, FLAC, MP3, AAC a Opus ve vzorkovací frekvenci 24 kHz. API cena je $0,016 za 1 000 znaků, tedy méně než polovina ceny ElevenLabs, kde standardní plán startuje kolem $0,03 za 1 000 znaků.
Lokální nasazení a fakt, že žádný audio frame neopustí infrastrukturu uživatele, mění podmínky pro enterprise voice agenty v regulovaných odvětvích: zdravotnictví, bankovnictví nebo veřejném sektoru. Pro vývojáře, kteří dosud pracovali s ElevenLabs nebo Google TTS, je to první open-weight alternativa na frontier úrovni.
Limity jsou reálné. Voxtral TTS podporuje 9 jazyků (angličtina, francouzština, němčina, španělština, holandština, portugalština, italština, hindština, arabština), zatímco ElevenLabs pokrývá 32 jazyků včetně japonštiny, korejštiny nebo čínštiny. Licence je CC BY-NC 4.0, tedy ne čistě open source pro komerční nasazení bez licence od Mistralu.