Cohere запустила открытую голосовую модель для расшифровки речи

Компания Cohere представила свою первую голосовую модель — Transcribe. Это открытая модель автоматического распознавания речи (ASR), которую можно использовать, например, для ведения заметок или анализа аудио.

Модель сравнительно лёгкая — всего 2 миллиарда параметров — и подходит для запуска на обычных потребительских видеокартах. Пока она поддерживает 14 языков: английский, французский, немецкий, итальянский, испанский, португальский, греческий, голландский, польский, китайский, японский, корейский, вьетнамский и арабский.

По данным Cohere, Transcribe опережает такие модели, как Zoom Scribe v1, IBM Granite 4.0 1B, ElevenLabs Scribe v2 и Qwen3-ASR-1.7B, в рейтинге Hugging Face Open ASR. Средняя ошибка распознавания слов (WER) у неё составляет 5,42% — это лучше, чем у всех конкурентов на этом тесте.

При оценке людьми модель показала точность, согласованность и удобство выше среднего — её преимущество составило 61% по сравнению с другими решениями. Однако в трёх языках — португальском, немецком и испанском — Transcribe уступила соперникам.

Модель способна обрабатывать до 525 минут аудио за одну минуту — это высокий показатель для своей категории.

Cohere планирует интегрировать Transcribe в свою корпоративную платформу оркестровки агентов North. Пока модель доступна бесплатно через API компании. Также её можно использовать в Model Valut — платформе Cohere для управляемого вывода моделей.

Спрос на модели распознавания речи растёт вместе с популярностью приложений для заметок и диктовки, таких как Granola и Wispr Flow.

Ранее в этом году стало известно, что Cohere прогнозирует годовой повторяющийся доход в 240 миллионов долларов к 2025 году. Генеральный директор компании Эйдан Гомес (Aidan Gomez) заявил, что стартап может выйти на IPO в ближайшее время.

Читать оригинал