Голосовой ввод на русско-английском: обзор инструментов для диктовки нейросетям и кода

Habr AI 17 апр 2026

Для IT-специалистов, активно работающих с нейросетями и кодом, голосовой ввод может стать настоящим спасением, экономя часы рабочего времени. Однако смешанная русско-английская речь, характерная для этой среды, часто становится камнем преткновения для существующих моделей распознавания. В этой статье мы рассмотрим актуальные решения для голосового ввода на апрель 2026 года, включая как облачные, так и локальные приложения, а также новейшие модели распознавания речи.

Почему голосовой ввод актуален для разработчиков

Скорость речи человека (150-180 слов в минуту) значительно превышает скорость печати (в среднем 50-70 WPM для IT-специалистов). Хотя после диктовки требуется корректура, для задач вроде составления промптов для LLM или написания черновиков сообщений выигрыш в скорости очевиден. Исследования показывают, что голосовой ввод наиболее эффективен для линейного, повествовательного текста, такого как объяснение задач нейросетям или идеи для статей. С развитием «вайб-кодинга» и инструментов вроде Cursor и Claude Code, где большая часть взаимодействия сводится к объяснению задач на смешанном языке, голосовой набор становится еще более востребованным.

Бесплатные встроенные решения и их ограничения

Встроенный голосовой ввод в iOS и macOS неплохо справляется с распознаванием, но не поддерживает расстановку знаков препинания и требует ручной коррекции. Голосовые режимы в нейросетях (например, в ChatGPT) ориентированы на диалог, а не на набор текста. Встроенный голосовой ввод Windows 11 (Win+H) работает удовлетворительно для коротких фраз, но не подходит для серьезной диктовки, особенно в офлайн-режиме. На данный момент наиболее адекватным бесплатным решением для русскоязычной речи является голосовой ввод в ChatGPT, основанный на моделях Whisper от OpenAI.

Облачные решения: WisprFlow и SpeakFlow

WisprFlow предлагает удобный интерфейс и интеграцию с приложениями, но может испытывать проблемы с пунктуацией и нагрузкой на систему при длительной работе. Российский аналог SpeakFlow, несмотря на более низкую цену, также страдает от нестабильности и проблем с приватностью из-за необходимости переписки с разработчиком. Оба сервиса отправляют данные на обработку в облако, что вызывает вопросы о конфиденциальности.

Handy: Open Source и локальная обработка

Handy — бесплатный open-source проект, работающий полностью локально, что гарантирует приватность данных. Он поддерживает различные модели распознавания речи, включая семейство Whisper от OpenAI. Основная проблема — скорость обработки на CPU. Для ускорения требуется GPU с поддержкой CUDA или Vulkan.

OpenWhispr: GPU-ускорение и высокая точность

OpenWhispr выделяется поддержкой CUDA для NVIDIA GPU, что обеспечивает высокую скорость обработки модели Whisper Large. Проект активно развивается, имеет открытый исходный код и предлагает как локальную, так и облачную обработку. Это решение обеспечивает отличное качество распознавания, включая корректную обработку смешанной русско-английской речи и пунктуации.

Пунктуация: ключ к качеству ответов LLM

Исследования показывают, что правильная пунктуация в промптах может повысить точность ответов нейросетей до 76 процентных пунктов. Использование специального промпта с разнообразными знаками препинания в OpenWhispr позволяет добиться точности расстановки знаков до 99%, что критически важно для эффективного взаимодействия с LLM.

Бенчмарк моделей: Whisper Large v3, Turbo и GigaAM v3

Whisper Large v3 демонстрирует наилучшее качество на смешанной русско-английской речи, хотя и уступает в скорости. Whisper Turbo значительно быстрее, но качество распознавания английских слов и пунктуации ниже. Российская модель GigaAM v3 от Сбера показывает отличные результаты на чистом русском языке и работает на CPU, но испытывает трудности с английскими терминами. Для IT-контекста Whisper Large v3 остается предпочтительным выбором при наличии мощного GPU.

Технологии ускорения: CPU, CUDA и Vulkan

Обработка речи на CPU значительно медленнее, чем на GPU. Для NVIDIA GPU рекомендуется CUDA, а для AMD — Vulkan. На новых картах NVIDIA RTX 50-й серии Vulkan может показывать лучшую производительность, чем CUDA.

Другие варианты: GigaAM, Canary, SuperWhisper

GigaAM v3 — перспективная модель для чистого русского языка, но пока не подходит для смешанной речи. NVIDIA Canary 1B v2 предлагает быструю автопунктуацию, но также имеет проблемы с обработкой английских слов. SuperWhisper — удобное приложение с бесплатной моделью Standard, обеспечивающей около 95% качества Whisper Large, но имеет нюансы в работе на Windows и iPhone.

VRAM и экономика локального использования

Наличие GPU с 8+ ГБ VRAM позволяет сэкономить на облачных подписках, используя локальные модели вроде Whisper Large. Требования к железу снижаются, и в будущем ожидается появление качественных моделей, работающих на CPU.

Мультиплатформенность: Mac, iPhone

На Mac с Apple Silicon хорошо работают OpenWhispr и Handy с GPU-ускорением. На iPhone лучшим вариантом по качеству расшифровки остается WisprFlow (с бесплатным планом), а SuperWhisper предлагает удобный бесплатный тариф Standard, но с оговорками по работе в России.

Итоговый выбор

Для десктопа рекомендуется OpenWhispr с моделью Whisper Large и CUDA. Для Mac — Whisper Large. Для телефона — WisprFlow. SuperWhisper — хороший бесплатный вариант для десктопа.

Транскрибация аудио и видео

Технологии голосового ввода применимы и для транскрибации аудио- и видеофайлов. Инструменты вроде OpenWhispr, WhisperX и Vibe позволяют автоматизировать этот процесс. Возможность собрать собственный скрипт на базе Whisper дает полный контроль над процессом.

Будущее голосового ввода

Экосистема вокруг Whisper активно развивается благодаря open-source проектам, таким как whisper.cpp, faster-whisper и Distil-Whisper. Хотя OpenAI переходит к проприетарным облачным моделям, сообщество продолжает создавать и улучшать локальные решения. Развитие собственных моделей для русского языка и доработка существующих иностранных моделей — ключевые направления для русскоязычного IT-сообщества.

Голосовой ввод на русско-английском в 2026: WisprFlow, Handy, OpenWhispr, GigaAM v3 — для диктовки нейросетям и кода

Habr AI 17 апр 2026

Эта статья будет особенно в кассу тем, кто много общается с нейросетями или кодит с ассистентами — Claude, ChatGPT, Cursor, Claude Code. В этих сценариях голосовой набор экономит реально много времени: объяснить задачу в три абзаца голосом — секунд 30, напечатать — минуты две. Но у русского IT-шника здесь есть нюанс: половина слов английские (push, deploy, pull request, Gemini, Whisper), и модели распознавания об эту смесь стабильно спотыкаются.

Дальше — срез состояния голосового ввода через призму именно этого сценария: диктовка LLM и код на русско-английском, облачные и локальные приложения, свежие модели распознавания речи.

В прошлом году я смотрел ролик Тиаго Форте — создателя концепции Second Brain — где он что-то делал при помощи Claude и показывал утилиту для голосового набора под названиемWisprFlow. Она считывала его речь, форматировала, расставляла знаки препинания — прям вообще супер работало.

Сразу загорелся: надо пробовать.

С того момента прошло полгода. За это время — 5+ приложений, один pull request в open source (приняли в main!), бенчмарк двух моделей Whisper и промпт, который починил пунктуацию в 99% случаев. Эта статья — про весь путь. И про то, как те же модели работают для транскрибации записей.

Актуально на апрель 2026 года. Модели и приложения в этой области обновляются быстро — проверяйте версии.

Статья длинная, с техническими деталями. Если нужен быстрый ответ «что поставить» — в конце есть сводная таблица. Но если интересно, как одна модель пишет «research» латиницей, а другая — «ресёрч» кириллицей, и какая из них на самом деле лучше для русского с вкраплениями английского — читайте по порядку.

Зачем голосовой набор, если быстро печатаешь

Я печатаю бегло и по-русски, и по-английски. Но голосом мы говорим со скоростью 150-180 слов в минуту — а это в 2-3 раза быстрее, чем набираем текст.

Крупнейшееисследование скорости набора(Aalto University, 168 000 участников) показало среднюю скорость 52 слова в минуту (WPM). IT-специалисты печатают быстрее, в среднем около 70 WPM.Зак Прозер, developer advocate в Pinecone, замерил конкретно: 90 WPM печатью, 179 голосом. За год надиктовал 180 000 слов в 36 приложениях.

Конечно, сырая скорость — не всё. После диктовки текст нужно проверить и поправить. Но вот что важно: насколько много правок — зависит от задачи. Если ты диктуешь медицинскую документацию, где каждое слово на вес золота, правки съедают значительную часть выигрыша. Но если ты диктуешь промпт вLLM, сообщение в Telegram или черновик поста — текст не должен быть идеальным. Нейросеть поймёт. Собеседник поймёт. Правок минимум.

Исследования подтверждают: диктовка даёт максимальный выигрыш именно на линейном повествовательном тексте — потоке сознания, email, заметках. На структурированном вводе (формы, шаблоны, код) клавиатура не хуже или даже лучше. А мои основные сценарии — как раз линейный текст: объяснить задачу нейросети на два абзаца, надиктовать длинное сообщение, проговорить идею для статьи.

С появлением вайб-кодинга голосовой набор стал ещё актуальнее. Andrej Karpathy — один из создателей OpenAI, бывший директор AI в Tesla — так описал свой воркфлоу с Cursor взнаменитом твите про vibe coding(3 февраля 2025, 6,8M просмотров):

I just talk to Composer with SuperWhisper so I barely even touch the keyboard— Andrej Karpathy, X, 3 февраля 2025

Когда ты работаешь с Cursor или Claude Code, большая часть времени уходит на объяснение задачи. Тебе нужно сослаться на файл, описать баг, назвать функцию — и всё это на смеси русского и английского. Если модель распознавания понимает оба языка одновременно — голосовой набор для этого идеален.

А что есть бесплатно из коробки?

Прежде чем тратить деньги, я проверил, что уже есть.

iOS dictation.На айфоне и маке есть встроенный голосовой набор. Слова ловит неплохо, но набирает по одному — получается бесконечный поток сознания, где только первое слово с большой буквы, а дальше ни единой запятой. Можно расставлять знаки препинания голосом — говоришь «точка», «тире», «запятая» — но это, конечно, не то.

Voice Mode в нейросетях.Когда ты общаешься с нейросетью голосом и она голосом отвечает. Это здесь вообще не рассматриваем — нам нужен голосовой набор текста, а не голосовой чат.

Claude.На конец марта 2026 года голосовой ввод в приложении Claude на Windows и Mac работает только на английском. На iPhone — работает с русским, но качество так себе, иногда падает. Видно, что эта функция не в фокусе — по крайней мере для русского языка.

ChatGPT.А вот тут хорошо. На всех платформах — Windows, Mac, iPhone — отлично расшифровывает русскую речь. Вероятно, потому что именно OpenAI в 2022 году разработала семейство моделей Whisper — на сегодня стандарт качества в распознавании речи.

Windows.Формально Win+H поддерживает русский в Windows 11, но качество на уровне «для коротких фраз сойдёт». Для серьёзной диктовки — мимо. Офлайн-распознавание русского в Windows не поддерживается вообще. А Windows — моя основная система, домашняя рабочая станция. Я потратил кучу времени — ничего достойного для русского языка не нашёл.

Итого: из бесплатного более-менее адекватно работает только голосовой ввод в ChatGPT. Но если вы, как и я, используете другие нейросети — вам нужен отдельный инструмент.

WisprFlow и SpeakFlow: платные облачные решения

Вернёмся к WhisperFlow, с которого всё началось.

Я установил его, там был бесплатный режим — до 2 000 слов в месяц. За несколько недель понял: это реально тема, реально ускоряет. Уже тогда активно общался с нейросетками, и голосовой набор прям зашёл.

Захотел купить подписку. Цена: $15 в месяц, $144 в год. Потом я узнал, что подписку можно купить через российский App Store с региональным прайсингом — рекомендую всегда проверять: 750 ₽ в месяц вместо $15, 7 200 ₽ в год вместо $144. При курсе 80 ₽ за доллар это меньше 10 долларов вместо 15 и 90 вместо 144. Плюс не нужен геморрой с зарубежными картами (если, конечно, вы успели пополнить баланс российского Apple id до того как это стало невозможным…).

Но WisprFlow начал подводить. Самая фрустрирующая проблема — иногда текст приходил вообще без единого знака препинания. Надиктовываешь минуту — получаешь гигантский абзац неразмеченного текста. У WisprFlow есть фичи, которые подстраиваются под приложение, в котором ты диктуешь. Диктую в терминал — всё идеально размечено. Диктую в Claude Desktop — без единой запятой. И это было главное место, где мне нужен голосовой набор.

Тут можно сказать: «Да какая разница, LLM и так поймёт». На самом деле — нет, и дальше покажу конкретные цифры.

Помимо пунктуации, приложение после долгой работы в фоне начинало дико грузить процессор и вешать систему. Я писал баг-репорты — но за пару месяцев ничего не изменилось. Начал искать альтернативы.

Наткнулся на российский проектSpeakFlow. Маленький независимый разработчик, увидел где-то в Telegram — кто-то продвигал страницу на ProductRadar. Цена: 690 ₽ в месяц, оплата российской картой. На тот момент я ещё не знал про App Store фишку, так что SpeakFlow выглядел почти вдвое дешевле WisprFlow.

Скажу честно: немного стрёмно было ставить приложение без цифровой подписи от маленького разработчика. Плюс — ничего плохого не имею в виду, но я как-то исторически предпочитаю свою персуху сливать компаниям, которые подальше от меня находятся.

Поставил, попробовал. Как будто с русским чуть получше — разработчик русский, видимо, докрутки делал. Были какие-то модели под авторскими названиями — непрозрачно, что внутри и чем отличаются. По большей части делали примерно одно и то же.

И те же грабли: иногда пропадала пунктуация, memory leaks, подвисания. Некоторые апдейты всё ломали. Переписка с поддержкой ещё больше напрягла — тут и деанонимизация происходит: пишешь со своего телеграм-аккаунта, и можно связать аккаунт с твоей системой.

Между делом попробовал ещё Voicy — что-то среднее между WisprFlow и SpeakFlow, но к результату тоже были вопросы. Были варианты чисто под Mac, типа MacWhisper, но у меня основная машина на Windows, и мне нужно решение под обе платформы.

Ещё один заметный игрок —Aqua Voice($10/мес, выпускник Y Combinator): они обучили собственную модель Avalon специально на dev-контексте — CLI, IDE, технические термины. На английском впечатляет, но русский пока работает на стандартном движке, а в рунете продукт практически неизвестен.

Ключевое: и WisprFlow, и SpeakFlow — облачные. Всё, что ты надиктовываешь, отправляется на сервер для обработки. А мы сейчас общаемся с LLM о самом разном — рабочие детали, личные вещи, иногда достаточно сокровенное. Чем меньше посредников в этой цепочке, тем лучше. В идеале хотелось бы, чтобы всё оставалось на моей машине.

Handy: open source и свобода выбора

Потом я наткнулся — тоже где-то в Telegram — на open-source проектHandy. По сути, то же самое: голосовой набор, транскрибация речи в текст. Но бесплатно, полностью локально — ничего никуда не отправляется, всё на твоей машине. Плюс можно выбирать из разных моделей распознавания.

Я такой: «Вау! Это можно не платить 700 ₽ в месяц? И делать всё локально, и не переживать за приватность?» Маленькая оговорка: я на 95% уверен, что со SpeakFlow в плане приватности всё в порядке. Но, как говорится, выживают только параноики.

Handy работает и на Windows, и на Mac. Внутри — практически все основные модели. Я раньше сталкивался с Whisper, когда собирал себе скрипт для транскрибации видео — скачал какую-то модель, прикрутил, работало. Но не разбирался, какие модели бывают и чем отличаются. И вот тут впервые вник.

Из того, что давало нормальную скорость — модель Parakeet V3 от NVIDIA. Но у неё был главный для меня вопрос: микс языков. Когда вплетаешь английские слова в русскую речь — а при общении с LLM это неизбежно — Parakeet справлялся так себе.

Лучший результат по качеству давало семейство Whisper от OpenAI. У них есть модели по размеру — самая большая называется Whisper Large, 1,55 миллиарда параметров. Она давала лучший результат по всем фронтам: знаки препинания, микс языков, заглавные буквы. Русские слова — русскими буквами, английские — английскими. Супер.

Одна проблема: по умолчанию все эти модели работают на процессоре (CPU). И если лёгкие модели на CPU тянут нормально, то Whisper Large приходилось мучительно долго ждать. По моим замерам на десктопном i5-13600K — минута речи, почти две минуты обработки. Транскрипция медленнее, чем сама запись.

И тут надо сказать про скорость. Качество распознавания — это половина дела. Вторая половина — насколько быстро текст появляется на экране. Если ты наговорил 20 секунд и потом ждёшь — весь кайф убивается. В идеале ты хочешь, чтобы 20 секунд речи расшифровывались за секунду. Это называетсяRTF= 20, real-time factor. Формально:

RTF = 1 — модель обрабатывает аудио ровно в темпе речи; RTF = 20 — за секунду она расшифровывает 20 секунд речи, то есть вставка ощущается как моментальная.

Модели поменьше — Whisper Turbo, Medium — были быстрее, но качество падало. На миксе языков уже приближалось к Parakeet, а Parakeet был ещё и быстрее. В итоге бо́льшую часть времени я проводил на Parakeet как на компромиссе.

А потом в разговоре с Claude выяснилось, что эти модели можно загружать в видеопамять и ускорять через видеокарту. У NVIDIA есть специальная технология —CUDA— которая для этого идеально подходит. В HandyGPU-акселерация была, но через Vulkan — универсальный стандарт, который для карт NVIDIA обычно менее эффективен, чем родная CUDA. Я так понимаю, автор Handy разрабатывает на Mac, где NVIDIA нет.

Мне нужен был софт с CUDA.

OpenWhispr и GPU-ускорение: когда всё полетело

Я убил несколько часов, колупаясь в заброшенных GitHub-репозиториях — не всегда сразу понимая, что они не обновлялись полтора года. Какие-то решения с CUDA были платные, какие-то с разовой оплатой — хотелось бы без этого.

И потом я нашёлOpenWhispr.

Open source, 2 100+ звёзд на GitHub, активная разработка. Бизнес-модель простая: бесплатно, если модели крутятся у тебя локально. Или подписка — если хочешь облачную обработку. Можно подключить своиAPI-ключи от LLM-провайдеров.

Главное — CUDA из коробки.

Whisper Large на моей RTX 3080 — уже не новая, но всё ещё серьёзная карта — стал работать значительно быстрее — сопоставимо с Parakeet по скорости, но при гораздо лучшем качестве. Всё на месте: английские слова латиницей, пунктуация, заглавные буквы.

Приложение активно развивается, и в нём есть баги — как в любом живом проекте. Но оно опенсорсное, и это меняет всё. Можно починить баг самостоятельно. Или сделать фичу, которая нужна только тебе. С OpenWhispr я первый раз в жизни отправил pull request в чужой open source — его приняли в main. На момент написания у проекта 302 форка и 2 100+ звёзд.

Моё текущее решение — OpenWhispr + Whisper Large. На NVIDIA с CUDA это летает. На Mac с Apple Silicon тоже хорошо: на моём MacBook Pro с M4 Pro (14-ядерный) — более чем достаточная скорость для комфортной работы. На обычном M4 — уже на грани. M5 и M5 Pro потянут наверняка, M3 Pro — скорее да, но он всего на 5% мощнее обычного M4 в бенчмарках, так что гарантировать не берусь.

Если у вас AMD — путь есть, но менее гладкий. Лучший вариант — приложения на базе whisper.cpp с Vulkan-ускорением (например, Handy). Работает на большинстве AMD-карт без специальных драйверов. Vulkan — универсальный стандарт, поэтому и на AMD, и на NVIDIA будет работать. А на новых RTX 50xx Vulkan ещё и быстрее CUDA — подробнее в секции бенчмарка ниже.

Но одна проблема оставалась и здесь: нет-нет, да и проскакивала транскрипция вообще без знаков препинания. Причём проблема эта есть и на английском языке.

Пунктуация: больше, чем красота

Можно сказать: «Да ладно, LLM и так поймёт текст без запятых». Поймёт. Но хуже.

И это не субъективное ощущение — есть исследования с конкретными цифрами.

Работа Sclar et al., опубликованная на ICLR 2024, показала: разница в точности ответа модели может достигать 76 процентных пунктов — то есть на одной и той же задаче модель может выдать 90% accuracy или 14%, просто от изменения форматирования промпта. Не содержания, а пробелов, пунктуации, разделителей.

Ещё интереснее результатыLLM-Microscope(NAACL 2025): оказалось, что знаки препинания работают как attention sinks внутри трансформеров. Модель буквально использует их для обработки контекста. Цитата из статьи: «Пунктуация, которую люди считают незначительной, играет удивительно активную и сложную роль внутри этих моделей».

Аисследование Revпоказало, что текст без пунктуации хуже для понимания, чем текст с 15-20% ошибок в словах. То есть лучше перепутать каждое пятое слово, чем убрать все запятые.

Все три главных AI-лаборатории — OpenAI, Anthropic, Google — в своих документациях рекомендуют структурированные, хорошо отформатированные промпты.

Вывод для голосового набора прямой: качество пунктуации вSTT-модели напрямую влияет на качество ответов нейросети. Запятые и точки в вашем тексте — реальный перформанс взаимодействия с LLM.

Промпт, который починил пунктуацию

Проблема с пропадающей пунктуацией преследовала меня с самого первого приложения. В WisprFlow, в SpeakFlow, и в OpenWhispr — везде нет-нет, да и прилетал текст без единого знака препинания.

В OpenWhispr есть возможность подключить вторую модель для пост-обработки текста — text cleanup. Я попробовал: например, Qwen3 4B неплохо расставляет знаки препинания, если на вход пришёл текст без них. Но на моей 3080 Whisper Large уже занимал значительную часть видеопамяти, а вторая модель съедала всё остальное — 10 ГБVRAMзабиты под завязку, вся видеокарта отведена под распознавание речи и ничего больше делать нельзя. Плюс обработка последовательная: сначала Whisper Large расшифровывает аудио, потом передаёт текст в Qwen, и ты ждёшь, пока обе модели отработают по очереди. Текст на выходе лучше, но ощутимая задержка убивает интерактивность — голосовой набор перестаёт ощущаться как поток.

И тут я нашёл решение проще и элегантнее — без второй модели вообще.

В Whisper можно прокинуть текстовый промпт. Но он работает не как промпт к обычной нейросети. Модель не нуждается в инструкциях — у неё одна задача: превращать аудио в текст. Промпт работает как «прогрев»: мы показываем модели желаемый образ результата.

Вот промпт, который даёт мне пунктуацию в 99%+ случаев:

Привет! Как дела? Он сказал: «Сделаем это сегодня — пока есть время». Конечно, не всё так просто; нужно учесть погоду.

Смысл текста совершенно не важен. Важно, что в этом коротком фрагменте использованы все основные знаки препинания: запятая, точка, вопросительный знак, восклицательный знак, двоеточие, кавычки-ёлочки, тире, точка с запятой.

Работает просто супер. Вторая модель для text cleanup больше не нужна.

В стандартном интерфейсе OpenWhispr поля для кастомного промпта пока нет — я добавил его сам и отправил pull request:OpenWhispr #537иHandy #1227. Оба пока в ожидании merge. Пока не приняли — можно забрать мою ветку локально:gh pr checkout 537в клоне OpenWhispr илиgh pr checkout 1227в клоне Handy.

Пока колупал, дошёл до главного вывода: промпт не должен быть захардкожен. Это должно быть поле в настройках, с пресетом на каждый поддерживаемый язык — а пользователь может изменить текст, если хочется. Именно так я это и предложил в обоих PR’ах.

Почему так. Даже мой «99% промпт» не идеален: я заметил, что в каких-то версиях пресета кавычки-ёлочки (« ») иногда дают побочный эффект — модель воспринимает их как маркер прямой речи и начинает упаковывать в неё то, что прямой речью не является. Иногда это ок. Иногда — нет. Кому-то ёлочки вообще не нужны. Хардкод одного варианта для всех — неправильный ответ; поле, где можно поэкспериментировать — правильный.

Единственная оставшаяся неприятность — Whisper иногда ловит петлю: спотыкается на слове, расшифровывает его неправильно, и дальше начинает повторять по кругу. Это задокументированная проблема модели — встречается примерно в 1,4% сегментов. Исследователи уже нашли способы снизить её на 80%+, так что думаю, скоро это дойдёт до приложений. У меня тоже есть несколько приёмов, которые помогают, но не на 100%. Если интересно — обсудим в комментариях.

Turbo vs Large v3: мой бенчмарк

Но прежде чем перейти к цифрам — пара слов о том, как вообще устроены модели распознавания речи. Без этого результаты бенчмарка будут просто числами.

Whisper Large v3от OpenAI — подход «в лоб». Гигантская нейросеть на 1,55 миллиарда параметров, обученная на 680 тысячах часов аудио на 100+ языках. Архитектура классическая: энкодер «слушает» звук, декодер «пишет» текст токен за токеном — как GPT пишет ответ в чате. 32 слоя декодера — много вычислений на каждую секунду речи. Швейцарский нож: умеет всё, но не самый быстрый.

GigaAM v3от Сбера — противоположность. Всего 220 миллионов параметров (в 7 раз меньше), зато обучен исключительно на русском — 700 тысяч часов русской речи. Это скальпель, заточенный под одну задачу. Плюс другая архитектура: вместо «энкодер думает, потом декодер пишет» используетсяRNNT, который выдаёт текст потоково, по мере поступления звука. Маленькая модель + потоковая архитектура = результат быстрее, чем аудио успевает проиграться.

Whisper Turbo— попытка OpenAI догнать по скорости, не переписывая всё с нуля. Берём обученный Large v3, оставляем энкодер как есть, а декодер ужимаем с 32 слоёв до 4. Это дистилляция — большая модель-«учитель» передаёт знания маленькой. Результат: 809 миллионов параметров, скорость выше в 6 раз, качество падает совсем немного. Если Large — это профессор, который тщательно обдумывает каждое слово, то Turbo — тот же профессор, но отвечающий навскидку. Обычно попадает, но иногда упрощает.

Когда я впервые попробовал Turbo — ещё в процессе использования, до всякого ресёрча — мне показалось, что результат хуже, чем у Large. Чуть больше ошибок в английских словах, чуть менее аккуратная пунктуация. Я целенаправленно двигался в сторону Large: настраивал CUDA, искал правильный софт, добивался промпта для пунктуации.

А потом, уже готовя эту статью, наткнулся на бенчмарк faster-whisper, который показывал, что Turbo лучше Large v3 на русском: 7,7%WERпротив 7,9%. WER считается так:

Где— замены (substitutions),— пропуски (deletions),— вставки (insertions),— всего слов в эталонной транскрипции. 7% WER значит, что примерно каждое 14-е слово ошибочное.

Контринтуитивный результат. Я такой: «Блин, может я зря столько времени убил на Large?»

Попробовал Turbo снова — и офигел от скорости. В 3-4 раза быстрее, чем Large v3, который у меня и так уже работал без задержки. Абзацами текст моментально выстреливает. На секунду реально подумал: зачем я всё это делал?

Но потом решил проверить по-нормальному. Взял два аудиофайла и каждый по 10 раз прогнал через обе модели. Сделал это дважды: сначала без пунктуационного промпта, потом с ним. К этому моменту я уже проапгрейдился с RTX 3080 на RTX 5070 Ti с 16 ГБ VRAM — так что бенчмарк на ней.

Large v3 пишет английские слова латиницей, а заимствования, которые в русском склоняются, адаптирует: «в Телеграме» вместо «в Telegram» — и это скорее плюс. Ещё Large v3 расставляет кавычки-ёлочки и многоточия там, где Turbo их теряет. Turbo чаще транслитерирует английские слова в кириллицу и упрощает пунктуацию.

Вот тут и выяснилось, что бенчмарк faster-whisper не врал — но и мой первоначальный опыт тоже не обманывал. Вероятно, разница в датасетах: бенчмарк был на чистом русском, а мой кейс — русский с вкраплениями английского. На чистом русском Turbo действительно не хуже. Но стоит добавить английские термины — и Large v3 заметно точнее.

Ещё один инсайт из цифр: скорость обработки зависит не столько от длины аудио, сколько от того, что и как вы говорите. Два файла с одинаковым текстом, но разной длительностью (37 и 57 секунд) дали одинаковое время обработки — длина записи не повлияла. А вот сложность контента и манера речи влияют: уверенная диктовка обрабатывается быстрее, чем перечитка того же текста с паузами и придыханиями. Large с его 32-слойным декодером чувствительнее к этому, чем Turbo с 4 слоями.

Может показаться, что разница между моделями невелика — ну ошиблась одна на пару слов больше другой. Но на практике это часто разница между текстом, в который нужно лезть и править, и текстом, который можно отправить как есть. Когда инструмент раз за разом выдаёт результат без единой ошибки — это совсем другое ощущение от работы. Голосовой набор становится потоком, а не чередованием диктовки и редактуры.

Итог: если железо позволяет и задержка Large v3 не напрягает — нет причин выбирать Turbo. Качество выше, особенно на миксе языков. Если же Large на вашем GPU работает с заметной задержкой — Turbo отличная альтернатива, в 3-4 раза быстрее при сопоставимом качестве на чистом русском. Я остаюсь на Large v3.

Под капотом: CPU, CUDA и Vulkan

Все числа выше — на видеокарте. А что если GPU нет?

Я прогнал отдельный бенчмарк: тот же Whisper Large v3, те же файлы, но на процессоре. i5-13600K — нормальный десктопный процессор, не какой-нибудь Celeron. Результат: 69 секунд аудио обрабатывалисьпочти 2 минуты. CPU в 30-60 раз медленнее GPU на той же задаче. Без видеокарты голосовой ввод с Whisper Large — это боль.

Второй неожиданный результат — про саму видеокарту. Выше я писал, что Vulkan «менее эффективен, чем CUDA на NVIDIA». На моей предыдущей RTX 3080 (архитектура Ampere, поколение RTX 30xx 2020-2022) так и было — собственно, ради CUDA я и перешёл с Handy на OpenWhispr. Поданным сообщества ggml, на Ampere CUDA выигрывает у Vulkan 20-30%.

Но на моей новой RTX 5070 Ti (Blackwell, поколение RTX 50xx с 2025 года) всё наоборот: Vulkan стабильнона ~50% быстрееCUDA. Я собрал оба бэкенда из одних исходников whisper.cpp v1.8.4, прогнал каждый файл по три раза — разница воспроизводимая, не артефакт.

Причина: CUDA-поддержка Blackwell (compute capabilitysm_120, под которую бинарники ещё не все пересобраны) ещё сырая. Это подтверждают и другие проекты — например, faster-whisper на RTX 5070 Tiработает на 10% медленнее, чем на предыдущей RTX 4070 Ti Super (менее мощная карта прошлого поколения). Vulkan-бэкенд whisper.cpp, наоборот, активно оптимизируется — в январе 2026 получил12-кратное ускорениена встроенных GPU.

На практике это значит: на RTX 50-серии Handy с Vulkan сейчас быстрее OpenWhispr с CUDA. Типичная диктовка 30-60 секунд: Handy обрабатывает за 1-2 секунды, OpenWhispr — за 2-3. Оба комфортны, но разница ощутима. На более ранних картах (RTX 30xx, 40xx) CUDA по-прежнему впереди — так что рекомендация зависит от железа.

GigaAM, SuperWhisper и другие варианты

Прежде чем разбирать новых кандидатов по отдельности — сводка по моделям, которые я гонял и упоминаю в статье:

Архитектура

Whisper Large v3

Encoder-Decoder Transformer

Лучшая на миксе языков

Whisper Turbo

Дистиллят Large v3 (4 слоя декодера)

В 3-4× быстрее Large

Conformer + RNNT

SOTA для чистого русского

Canary 1B v2

FastConformer

Авто-пунктуация из коробки

Parakeet V3

FastConformer + TDT

Потоковая, очень быстрая

Cohere Transcribe

14 (без ru)

Apache 2.0

Топ Open ASR Leaderboard

GigaAM v3— модель от SberDevices, специально обученная на русском языке. На бумаге —SOTAдля русского: по бенчмаркам разработчика, в разы точнее Whisper Large на русскоязычных датасетах. И это при 220 миллионах параметров против 1,55 миллиарда у Whisper Large — в 7 раз компактнее. Работает даже на CPU.

В Handy GigaAM добавили через PR #913. Я попробовал — и первое впечатление было: «Вообще даже не рядом с Whisper Large». Потом перетестировал внимательнее и пересмотрел: русский текст действительно быстро и качественно, сопоставимо с Whisper. И скорость реально впечатляет — надиктовываешь три абзаца, и текст появляется моментально, даже на Mac.

Но есть проблема: английские слова GigaAM ломает стабильно. Gemini превращается в «Jemni». Whisper Large — в «WisperLorge». Я прогнал одно и то же аудио 6 раз — после первого прогона модель стабильно выдавала «Jemni» каждый раз. Ещё растяжки типа «аааа» пишет прямо в текст.

Для чистого русского на машинах без мощной видеокарты — отличный выбор. Для IT-контекста, где английские термины неизбежны — пока не подходит. Модель молодая, обучена на 700 000 часах русской речи. Было бы супер иметь модель, заточенную под русский, которая при этом хорошо понимает вкрапления английского — ждём.

Параллельно тестировал ещё одного свежего кандидата — NVIDIA Canary 1B v2. Миллиард параметров, заявлена поддержка русского и английского, быстрая автопунктуация прямо из коробки.

Иногда она даёт прям вау-результат: русская речь с английскими вкраплениями, всё на своих местах, термины латиницей, падежи согласованы. Я сидел и думал: «Блин, может это реально тема, зачем мне весь огород с Whisper Large и CUDA».

А потом неизбежно вылезает кусок, где английские слова превратились во что-то очень странное кириллицей — как у GigaAM, только ещё и менее предсказуемо. Настроек для code-switching никаких: выберешь auto — русскую речь вообще игнорирует, выберешь русский — вязнет на английских терминах. Сам русский мне понравился: пунктуацию расставляет аккуратно и без всякого промпта, работает быстро. Хороший был челленджер, сходу не взял. Может, его можно дофайнтюнить под IT-контекст — пока руки не дошли.

SuperWhisper— приложение, которое рекомендует Karpathy.

Первое, что удивило после установки: при первом запуске играет музыка. В 2026 году. Ну ладно.

Само приложение выглядит аккуратно и продуманно. Под капотом — модели Whisper под собственными названиями:

SuperWhisper

На самом деле

Whisper Tiny

Whisper Base

Whisper Small

Whisper Medium / Turbo

Whisper Large v3

После 15-минутного триала доступ к Ultra пропадает. Самая большая бесплатная модель — Standard. И знаете что? Она работает на удивление хорошо. Может быть, на 95% так же, как Large. Быстро, достаточно точно, чуть хуже с англицизмами. Большой разницы с Ultra я, честно, не заметил. Возможно, в SuperWhisper как-то дополнительно оптимизируют свои модели — промптят или файнтюнят — потому что когда я гонял Whisper Small и Medium напрямую через Handy или OpenWhispr, результат был заметно хуже.

Прайсинг: $8,5 в месяц или $85 в год за Pro. В российском App Store — 799 ₽ в месяц, 7 990 ₽ в год. То есть здесь, наоборот, через App Store дороже: $10 вместо $8,5 за месяц.

Есть баг: в терминале VS Code SuperWhisper не вставляет текст, а выводит его в своём окошке и засовывает в буфер обмена. Задокументированная проблема — workaround: режим Typing вместо Clipboard.

Работает на Windows, Mac, iPhone — но с оговорками. На Windows бывают нюансы с вставкой текста (тот же баг с VS Code). На iPhone в России, похоже, облачные модели работают только через VPN. Локальные модели запускаются без VPN, но паттерн работы другой: открывается отдельное приложение, в фоне работает нестабильно, текст вставляется неконсистентно. В итоге на iPhone SuperWhisper у меня не прижился.

Если Standard бесплатно — это очень хороший вариант для тех, кому не нужен топовый Large.

VRAM и экономика: когда локально имеет смысл

Whisper Large в VRAM — это прекрасно, но есть нюанс. На RTX 3080 с 10 ГБ видеопамяти модель занимала значительную часть. Когда я ещё пытался подключить вторую модель для text cleanup (Qwen3 4B) — 10 гигов забивались полностью. Вся видеокарта отведена под распознавание речи. Хочу подмонтировать видео — надо выключать этот софт, потом включать обратно.

Покупать видеокарту только ради голосового набора — точно не стоит. Но если у вас уже есть GPU с 8+ ГБ VRAM — это хороший способ сэкономить 8 000-10 000 ₽ в год на облачных подписках. Причём не обязательно что-то топовое: Whisper Large занимает около 6 ГБ видеопамяти, и если карта выделена чисто под эту задачу, хватит даже 6 ГБ.

После апгрейда на 5070 Ti ситуация изменилась. Когда апгрейдил, читал про варианты оставить старую 3080 в системе и крутить на ней модель отдельно. В принципе, это возможно. Но решил, что мне это не нужно, и лучше получить деньги за старую карту. Если же у вас лежит без дела какая-нибудь карта с 6-8 ГБ — вполне рабочий вариант выделить её под Whisper.

На 5070 Ti Whisper Large работает в фоне постоянно. Могу параллельно монтировать видео, запускать рендер — на всё хватает. А после того, как промпт решил проблему пунктуации, вторая модель для text cleanup больше не нужна — VRAM свободнее.

При этом, судя по скорости развития индустрии, требования к железу будут снижаться. GigaAM уже в 7 раз компактнее Whisper Large и работает на CPU, Distil-Whisper даёт 99% качества в 6 раз быстрее. Думаю, через год-два появятся модели, которые будут давать сопоставимое с Whisper Large качество на обычном процессоре или встроенной видеокарте — без дискретного GPU.

Mac, iPhone и мультиплатформенность

Про Mac на Apple Silicon — OpenWhispr и Handy оба неплохо работают с GPU-ускорением. На M4 Pro (14-ядерный) Whisper Large даёт вполне комфортную скорость. Handy буквально на днях выкатил релиз с улучшенным GPU-ускорением для чипов Apple, и после этого Whisper Large стал достойно работать и там. На обычном M4 у жены — прям на грани. Разница ощутимая, кому-то будет комфортно, кому-то слишком долго ждать.

На iPhone — WisprFlow встраивается как отдельная клавиатура, что уже само по себе не очень удобно. Нужно переключить язык, чтобы найти кнопку включения, потом вызывается приложение, нужно свайпнуть обратно. Дополнительное трение. Но с точки зрения качества расшифровки — вариант, наверное, лучший на iPhone.

SuperWhisper на iPhone — с оговорками. В России облачные модели требуют VPN, локальные работают, но UX другой: открывается отдельное приложение, фоновая запись нестабильна. Плюс если не задать русский язык явно, приложение часто пытается перевести речь на английский.

Важный момент для телефона: у WisprFlow есть бесплатный план до 2 000 слов в месяц, SuperWhisper на бесплатной модели Standard работает без ограничений. Мне для телефонного использования хватает с запасом.

Что выбрать: сводная таблица

OpenWhispr

SuperWhisper

Бесплатно (локально)

Бесплатно (Standard) / от $8,5/мес

от 750 ₽/мес

от 690 ₽/мес

Open source

Где работает

Локально / облако

CUDA (NVIDIA)

Нет (Vulkan)

AMD (Vulkan)

Whisper Large

Да (Ultra, платно)

Микс языков

Зависит от модели

Отлично (Large)

Хорошо (Ultra)

Мой выбор:OpenWhispr + Whisper Large + CUDAна десктопе. На Mac тоже Whisper Large — M4 Pro тянет. Если бы не тянул — выбирал бы между Whisper Turbo и GigaAM, склоняясь к Turbo. Для телефона — WisprFlow (бесплатный план до 2 000 слов/мес). SuperWhisper на десктопе хорош бесплатно на Standard — это уже 95% качества, но на iPhone и Windows есть шероховатости.

Транскрибация аудио и видео: та же технология

Всё, о чём мы говорили — модели, промпт для пунктуации, VRAM, выбор между Turbo и Large — применимо и к транскрибации записей. Расшифровка аудиофайла, извлечение текста из видео, транскрибация записи встречи — это та же задача: речь в текст. Просто не в реальном времени.

Некоторые приложения уже предлагают это из коробки. OpenWhispr в последних версиях добавил режим транскрибации встреч — умеет отслеживать начало созвона в Zoom и автоматически записывать. Для интервью и подкастов есть WhisperX — он добавляет пословные таймстемпы и определяет, кто говорит.

Отдельно стоит упомянутьVibe— бесплатноеopen-sourceприложение, заточенное именно под транскрибацию файлов. Локальные модели, простой интерфейс, активное сообщество. Для диктовки Vibe тоже формально умеет, но пока не хватает базовых удобств: нет звукового сигнала при начале и конце записи, нет визуального индикатора, нет выбора режима шортката (нажал-говоришь-нажал vs удерживаешь кнопку). Для расшифровки файлов — рекомендую попробовать.

А если хочется полного контроля — можно собрать свой скрипт. Попросите Claude Code или Cursor настроить папку, куда кладёте аудио или видео: скрипт вытащит звуковую дорожку и прогонит через Whisper. Все выводы про модели из этой статьи работают и здесь.

Что дальше

Whisper Large v3 вышел в ноябре 2023 года. Turbo — в сентябре 2024. С тех пор — тишина. OpenAI не выпускали Whisper v4 и, похоже, движутся в другую сторону: выпустили GPT-4o-transcribe — проприетарную облачную модель, доступную только через API. Для локального использования она бесполезна.

Но вокруг Whisper выросла целая экосистема независимых проектов — и она живёт и развивается без OpenAI:

whisper.cpp— полная переписка Whisper на C++, автор — Георги Герганов (он же создал llama.cpp). Работает без Python, запускается на чём угодно — от десктопа до телефона. Именно whisper.cpp используется под капотом в OpenWhispr. В январе 2026 получил 12-кратное ускорение на встроенных GPU через Vulkan.
faster-whisper— другой подход к ускорению: берёт оригинальную модель Whisper и конвертирует в оптимизированный формат (CTranslate2) с квантизацией. Примерно в 4 раза быстрее оригинала при том же качестве. Активно поддерживается.
Distil-Whisper— проект Hugging Face: через дистилляцию создают уменьшенные версии Whisper, которые работают в 6 раз быстрее при 99% точности. Правда, лучше всего работает на английском.
WhisperX— надстройка, которая добавляет то, чего в базовом Whisper нет: пословные таймстемпы и определение, кто говорит. Полезно для транскрибации интервью и подкастов.

GigaAM v3 от Сбера я подробно разобрал выше. Parakeet V3 от NVIDIA тоже гонял — и видел, как гоняли другие: русский работает, но на миксе с английским результаты средние. Canary 1B v2 — та же история, см. разбор выше.

В конце марта 2026 вышла ещё одна свежая модель — Cohere Transcribe. 2B параметров, Conformer-архитектура, Apache 2.0, средний WER 5,42%, топ Open ASR Leaderboard среди открытых моделей. По меркам индустрии — громкий релиз. Но русского среди 14 поддерживаемых языков нет. Возможно, политика; возможно, просто приоритеты рынка.

Эпоха, когда одна монолитная модель от OpenAI была безальтернативным стандартом, подходит к концу. Whisper и его наследие — открытый код, форки, коммьюнити-проекты — живут и будут жить ещё долго. А свежие SOTA-релизы вроде Cohere Transcribe русскоязычному пользователю без русского не помогают.

Для русского айтишника и вайб-кодера надежда — на то, что уже есть, и на то, что мы делаем сами. С одной стороны — докрутка иностранных моделей: fine-tuning, форки, pull requests, коммьюнити вокруг Whisper. С другой — собственные модели под русский, обученные с нуля. Хочется, чтобы таких проектов появлялось больше.

Отдельное спасибо SberDevices за GigaAM и движение в правильном направлении. Под мой сценарий с миксом языков модель пока не подходит, но результат на чистом русском у ребят правда впечатляющий. С удовольствием перейду на неё, как только научится работать с вкраплениями английского.

Подписывайтесь наНейросеть не виновата— пишу про AI, инструменты и практику. Без воды, с граблями.

Оригинал статьи — в моёмблоге.

Читать оригинал