Mistral представила новую открытую модель для генерации речи

Французская компания Mistral представила новую открытую модель преобразования текста в речь (TTS), которую можно использовать в голосовых помощниках или в корпоративных сценариях — например, для поддержки клиентов. Модель позволяет компаниям создавать голосовых агентов для продаж и взаимодействия с клиентами, что ставит Mistral в один ряд с такими игроками, как ElevenLabs, Deepgram и OpenAI.

Новая модель, получившая название Voxtral TTS, поддерживает девять языков: английский, французский, немецкий, испанский, голландский, португальский, итальянский, хинди и арабский.

«Наши клиенты давно просили выпустить речевую модель. Поэтому мы создали компактную модель, которая поместится даже на умных часах, смартфоне, ноутбуке или других устройствах на периферии. Стоимость её — лишь часть от цен на рынке, при этом производительность на уровне лучших решений», — рассказал Пьер Сток (Pierre Stock), вице-президент по научным операциям в Mistral AI, в интервью TechCrunch.

Модель способна адаптироваться под персонализированный голос по образцу всего в пять секунд. Она передаёт тонкие акценты, интонации, мелодику и даже естественные неровности речи. На базе Ministral 3B, Voxtral легко переключается между языками, сохраняя характер голоса — это особенно полезно для дубляжа или перевода в реальном времени. По словам Стока, команда стремилась сделать голос максимально человеческим, а не роботизированным.

Оптимизация под реальное время

Модель заточена под работу в режиме реального времени. Показатель задержки начала воспроизведения (time-to-first-audio, TTFA) составляет 90 мс для 10-секундного фрагмента из 500 символов. А коэффициент реального времени (RTF) — 6x, то есть 10-секундный аудиофрагмент генерируется за 1,6 секунды.

Путь к полноценному голосовому решению

Ранее в этом году Mistral запустила две модели для распознавания речи — одну для пакетной обработки, другую — для задач с низкой задержкой. Теперь, с выходом модели генерации речи, компания делает ставку на создание полного набора голосовых продуктов для бизнеса.

«Мы планируем создать сквозную платформу, способную обрабатывать многомодальные потоки — аудио, текст, изображения — на входе и выходе. Главное преимущество такого подхода в том, что агентная система, поддерживающая аудио, получает гораздо больше информации», — отметил Сток.

Mistral делает ставку на открытый исходный код и возможность глубокой настройки: по их мнению, это поможет компаниям выбрать их решения вместо продуктов конкурентов, поскольку они смогут адаптировать модель под свои нужды.

Читать оригинал