Mistral представила новую открытую модель для генерации речи

TechCrunch AI 26 мар 2026

Французская компания Mistral представила новую открытую модель преобразования текста в речь (TTS), которую можно использовать в голосовых помощниках или в корпоративных сценариях — например, для поддержки клиентов. Модель позволяет компаниям создавать голосовых агентов для продаж и взаимодействия с клиентами, что ставит Mistral в один ряд с такими игроками, как ElevenLabs, Deepgram и OpenAI.

Новая модель, получившая название Voxtral TTS, поддерживает девять языков: английский, французский, немецкий, испанский, голландский, португальский, итальянский, хинди и арабский.

«Наши клиенты давно просили выпустить речевую модель. Поэтому мы создали компактную модель, которая поместится даже на умных часах, смартфоне, ноутбуке или других устройствах на периферии. Стоимость её — лишь часть от цен на рынке, при этом производительность на уровне лучших решений», — рассказал Пьер Сток (Pierre Stock), вице-президент по научным операциям в Mistral AI, в интервью TechCrunch.

Модель способна адаптироваться под персонализированный голос по образцу всего в пять секунд. Она передаёт тонкие акценты, интонации, мелодику и даже естественные неровности речи. На базе Ministral 3B, Voxtral легко переключается между языками, сохраняя характер голоса — это особенно полезно для дубляжа или перевода в реальном времени. По словам Стока, команда стремилась сделать голос максимально человеческим, а не роботизированным.

Оптимизация под реальное время

Модель заточена под работу в режиме реального времени. Показатель задержки начала воспроизведения (time-to-first-audio, TTFA) составляет 90 мс для 10-секундного фрагмента из 500 символов. А коэффициент реального времени (RTF) — 6x, то есть 10-секундный аудиофрагмент генерируется за 1,6 секунды.

Путь к полноценному голосовому решению

Ранее в этом году Mistral запустила две модели для распознавания речи — одну для пакетной обработки, другую — для задач с низкой задержкой. Теперь, с выходом модели генерации речи, компания делает ставку на создание полного набора голосовых продуктов для бизнеса.

«Мы планируем создать сквозную платформу, способную обрабатывать многомодальные потоки — аудио, текст, изображения — на входе и выходе. Главное преимущество такого подхода в том, что агентная система, поддерживающая аудио, получает гораздо больше информации», — отметил Сток.

Mistral делает ставку на открытый исходный код и возможность глубокой настройки: по их мнению, это поможет компаниям выбрать их решения вместо продуктов конкурентов, поскольку они смогут адаптировать модель под свои нужды.

Читать оригинал

Mistral представила новую открытую модель для генерации речи

Оптимизация под реальное время

Путь к полноценному голосовому решению

Mistral releases a new open-source model for speech generation

Disrupt 2026: The tech ecosystem, all in one room

Your next round. Your next hire. Your next breakout opportunity.Find it at TechCrunch Disrupt 2026, where 10,000+ founders, investors, and tech leaders gather for three days of 250+ tactical sessions, powerful introductions, and market-defining innovation. Register now to save up to $400.

Save up to $300 or 30% to TechCrunch Founder Summit