Сравнение TTS-моделей на реальных задачах бизнеса: голосовой бот и аудиоподкасты

Сравнение TTS-моделей на реальных задачах бизнеса: голосовой бот и аудиоподкасты

Это вторая часть обзора моделей синтеза речи (Text-to-Speech). В первой части были протестированы семь open source решений. В этот раз рассматриваются как open source, так и проприетарные TTS-модели на примере реальных бизнес-задач — создания голосового бота и генерации аудиоподкастов.

Метрики успеха

Для объективного сравнения используются те же критерии, что и в первой части:

  • Latency (CPU/GPU) — задержка при генерации речи.
  • Естественность (Naturalness) — насколько речь похожа на человеческую по интонации, тембру, скорости и плавности.
  • Выразительность (Expressiveness) — способность передавать эмоции и адаптироваться к контексту.
  • Легкость интеграции и настройки — качество документации и сложность запуска локально.

Также оцениваются две продуктовые задачи:

  • Голосовой чат-бот — способность генерировать короткие реплики в реальном времени, включая сложные слова и аббревиатуры.
  • Генерация аудиоподкастов — качество и скорость синтеза длинных текстов.

CosyVoice

Модель разработана командой Alibaba. В тесте использовалась версия CosyVoice3-0.5B. Также рассматривается доработанный русскоязычный форк — FastCosyVoice.

Голосовой бот

Для диалоговых систем критична минимальная задержка. CosyVoice поддерживает синтез в реальном времени.

Пример диалога:

(Клиент) — Здравствуйте, хочу записаться к кардиологу, давление скачет.

(CosyVoice) — Для записи продиктуйте номер полиса ОМС, СНИЛС и дату рождения.

(Клиент) — Полис у меня есть, а ещё выписка после стационара.

(CosyVoice) — При наличии ИБС, ХСН или перенесённого ОНМК необходимы результаты ЭКГ, ЭХО-КГ и суточного мониторирования по Холтеру.

Модель корректно произносит аббревиатуры, не допускает акцентов и ошибок в ударениях.

Генерация аудиоподкастов

Тест — отрывок из рассказа «Господин из Сан-Франциско» (4868 символов, около 2,5 страниц А4). Текст содержит художественные конструкции, где возможны ошибки в интонации и ударениях.

Результат: речь чистая, качество стабильное, но встречаются незначительные ошибки в ударениях и интонации. Модель справляется с длинными текстами без явных артефактов.

Yandex SpeechKit

Yandex SpeechKit — облачный сервис для синтеза и распознавания речи. Отличается понятной документацией, большим выбором голосов и поддержкой нескольких языков, включая русский, английский, немецкий и узбекский.

Доступны мужские и женские голоса с разными характеристиками: «нейтральный», «дружелюбный», «раздражённый», «строгий». Можно создать собственный голос, но для этого требуется минимум 30 минут размеченной речи.

Голосовой бот

Тестовый диалог аналогичен предыдущему. Yandex SpeechKit корректно произносит аббревиатуры и сложные медицинские термины. Ответы генерируются быстро, задержки минимальны.

Генерация аудиоподкастов

На длинных текстах генерация быстрая. Речь немного роботизированная, но интонация и ударения в основном правильные. При необходимости можно использовать разметку:

  • Указание ударения через знак +.
  • Установка пауз.
  • Фонетическое написание редких слов и аббревиатур.

Подробности — в документации по разметке.

Ключевое преимущество — поддержка синхронного, асинхронного и потокового синтеза. Для голосовых ботов доступен Realtime API, объединяющий STT, TTS и сценарии взаимодействия. Это делает сервис идеальным для call-центров и диалоговых систем.

Ценообразование

Два варианта тарификации:

  • API v1 — 1 342 ₽ за 1 млн символов в месяц.
  • API v3 — плата за единицы тарификации. Один запрос — до 250 символов или 24 секунд аудио. Стоимость единицы — 0,1627 ₽ с НДС.

Пример: текст из 900 символов = 4 единицы = 0,65 ₽.

API v1 удобен для больших объёмов, API v3 — для частых коротких запросов.

Итоги

CosyVoice — один из самых перспективных open source TTS для русского языка. Хорошо справляется с короткими и длинными текстами, демонстрирует баланс качества, скорости и гибкости. Подходит для задач, где важна автономность и контроль над моделью.

Yandex SpeechKit — зрелое промышленное решение. Отличная документация, стабильное качество, поддержка потоковой генерации и Realtime API. Небольшая роботизированность голоса компенсируется надёжностью и простотой интеграции. Идеален для быстрого запуска и масштабирования.

Выбор зависит от задач: CosyVoice — для кастомных решений с локальным развертыванием, Yandex SpeechKit — для промышленных систем с минимальными задержками и высокой отказоустойчивостью.

Читать оригинал