Французская компания Mistral представила новую открытую модель преобразования текста в речь (TTS), которую можно использовать в голосовых помощниках или в корпоративных сценариях — например, для поддержки клиентов. Модель позволяет компаниям создавать голосовых агентов для продаж и взаимодействия с клиентами, что ставит Mistral в один ряд с такими игроками, как ElevenLabs, Deepgram и OpenAI.
Новая модель, получившая название Voxtral TTS, поддерживает девять языков: английский, французский, немецкий, испанский, голландский, португальский, итальянский, хинди и арабский.
«Наши клиенты давно просили выпустить речевую модель. Поэтому мы создали компактную модель, которая поместится даже на умных часах, смартфоне, ноутбуке или других устройствах на периферии. Стоимость её — лишь часть от цен на рынке, при этом производительность на уровне лучших решений», — рассказал Пьер Сток (Pierre Stock), вице-президент по научным операциям в Mistral AI, в интервью TechCrunch.
Модель способна адаптироваться под персонализированный голос по образцу всего в пять секунд. Она передаёт тонкие акценты, интонации, мелодику и даже естественные неровности речи. На базе Ministral 3B, Voxtral легко переключается между языками, сохраняя характер голоса — это особенно полезно для дубляжа или перевода в реальном времени. По словам Стока, команда стремилась сделать голос максимально человеческим, а не роботизированным.
Оптимизация под реальное время
Модель заточена под работу в режиме реального времени. Показатель задержки начала воспроизведения (time-to-first-audio, TTFA) составляет 90 мс для 10-секундного фрагмента из 500 символов. А коэффициент реального времени (RTF) — 6x, то есть 10-секундный аудиофрагмент генерируется за 1,6 секунды.
Путь к полноценному голосовому решению
Ранее в этом году Mistral запустила две модели для распознавания речи — одну для пакетной обработки, другую — для задач с низкой задержкой. Теперь, с выходом модели генерации речи, компания делает ставку на создание полного набора голосовых продуктов для бизнеса.
«Мы планируем создать сквозную платформу, способную обрабатывать многомодальные потоки — аудио, текст, изображения — на входе и выходе. Главное преимущество такого подхода в том, что агентная система, поддерживающая аудио, получает гораздо больше информации», — отметил Сток.
Mistral делает ставку на открытый исходный код и возможность глубокой настройки: по их мнению, это поможет компаниям выбрать их решения вместо продуктов конкурентов, поскольку они смогут адаптировать модель под свои нужды.