Топ локальных нейросетей 2026: подборка ИИ для запуска из дома

Habr AI 28 апр 2026

В этой статье мы рассмотрим лучшие локальные нейросети 2026 года, которые можно запустить на домашнем компьютере. Мы расскажем о том, как выбрать подходящую видеокарту, какие модели лучше всего подходят для домашних задач и как их запустить с помощью различных программ-оболочек.

Топ локальных нейросетей ︎◍ 2026: подборка ИИ для запуска из дома

Habr AI 28 апр 2026

Сознаюсь: когда я впервые попытался запустить большую языковую модель на своём ноутбуке, всё закончилось вертушкой кулера, жутким лагом и системным сообщением “Недостаточно памяти”. Казалось, что домашний ИИ –удел владельцев космических станций с жидким азотом.

Но прошло совсем немного времени, и ситуация изменилась до неузнаваемости. Теперь достаточнообычной RTX 3060и получаса свободного вечера, чтобы завести себе персонального ассистента, который работает на даче без интернета и умеет шутить (или хотя бы пытается).

Я расскажу обо всём по порядку – без воды и фанатизма. Что вообще запускать, на чём запускать, какие подводные камни ждут и почему “самая новая модель” дома – далеко не всегда лучший выбор.

Готовьте отвёртку и VRAM – мы начинаем!

Зачем вообще держать ИИ дома (и зачем – нет)

Давайте сразу проговорим неприятное.Локальная нейросеть почти всегда слабее, медленнее и тупее, чем то, что вы получаете в платной онлайн-подписке. На вашем десктопе крутится модель уровня “компактная и старательная”, а не “всеведущая и моментальная”. Сложные задачи – серьёзный анализ кода, юридический ресёрч, многоступенчатое математическое рассуждение – она будет вытягивать с натяжкой, ошибаться, галлюцинировать API, которых не существует, и выдавать тексты в стиле “школьное сочинение, переведённое через переводчик”. Это нормально. Так и должно быть: ваш домашний компьютер – не дата-центр на тысячу H100.

Тогда зачем вообще это всё?

Во-первых,эксперименты. Если вы хотите потрогать руками, как устроен инференс, поиграться с квантованиями, попробовать свой fine-tune – без локальной установки вы далеко не уедете. Во-вторых,офлайн-сценарии: дача без интернета, командировка в самолёте, рабочий ноутбук с жёсткими политиками безопасности. В-третьих,обучение: один час с llama.cpp научит больше, чем десяток статей про “как работает LLM”. В-четвёртых,узкие задачи: транскрипция диктофонных записей через Whisper, локальный RAG по своим заметкам, простой чат-бот для проекта.

То есть локальная модель – это инструмент для конкретных задач, а не универсальная замена ChatGPT. И вот тут начинается интересное.

Комфортная работа с ИИ начинается тогда, когда вы перестаете ждать ответа и начинаете думать над задачей. Если ваша видеокарта не выдаёт 80+ токенов в секунду, это не повод мириться с медлительностью.BotHubпредоставляет доступ к моделям, которые “строчат как пулемет” без нагрузки на ваше личное железо.Просто откройте вкладку и работайте с GPT-5.5, Gemini 3.1 Pro, Claude Opus 4.7 и другими топовыми нейросетями, пока локальный сервер обрабатывает промпт.

Для доступа не требуется VPN, можно использовать российскую карту.

По ссылке вы можете получить 300 000 бесплатных токеновдля первых задач и приступить к работе с нейросетями прямо сейчас!

Видеокарта vs процессор: разница в десятки раз

Главное правило, которое стоит усвоить ещё до первой установки:CPU и GPU – это совсем разные миры скорости.

Вы можете запустить любую современную модель чисто на процессоре. На небольших 3B–7B-моделях CPU-only вполне справляется – будет работать, будет даже отвечать. Но скорость на CPU – это, в лучшем случае, “фастридер”, по меткому сравнению одного из блогов: “RTX 4090 пишет текст ‘как пулемёт’ (80+ токенов в секунду), а Mac – ‘как скорочтец’ (10–20 токен/с)”. Обычный же десктопный процессор без GPU-помощи – это уже даже не “фастридер”, а скорее “ленивец, читающий по слогам”. На современном CPU 7B-модель выдаёт примерно 5–10 токенов в секунду. На приличной видеокарте та же модель – 50–80 токен/с, а маленькие модели и все 100+. То естьразница реально в десятки раз.

Почему так? Дело в архитектуре: GPU умеет выполнять тысячи параллельных операций над матрицами, а это ровно то, чем занимается нейросеть на каждом токене. CPU тоже умеет, но в десятки раз медленнее. Поэтому если вы планируете чем-то всерьёз пользоваться, а не “потыкать раз в неделю” – нужна видеокарта.

Какая видеокарта нужна: VRAM решает всё

Когда-то для игр гнались за частотами и числом ядер. Для ИИ метрика одна –сколько VRAMв карте. Если задать один и тот же вопрос Claude, GPT и Gemini – “Какое железо нужно для локальных моделей?”, – все три ответят хором: GPU VRAM решает всё. В отличие от игр, где главное – это скорость чипа, в ИИ объём видеопамяти определяет даже не скорость, а сам факт того,запустится модель или нет.

И тут есть жёсткое правило: если модель влезла в VRAM – летает. Не влезла – часть весов уезжает в системную RAM, и скорость падает в 50–100 раз. Замечу: “50–100x падения” – это не опечатка. Если ваша модель не влезла в видеопамять и часть весов уехала в RAM, вы получите тот самый “фастридер уровня ленивца”. Поэтому VRAM – это “либо есть, либо нет”, полутонов мало.

Дальше – практический разрез по популярным моделям видеокарт:

Видеокарта

Что реально запустится

Комментарий

RTX 3060 (12 GB)

7B–14B в Q4, Gemma 4 E4B

Бюджетный король: 12 ГБ VRAM (больше, чем у RTX 3070 или 3080 на 10 ГБ) за небольшие деньги

RTX 4060 / 4060 Ti (16 GB)

13B уверенно, 26B MoE на пределе

16-гиговая версия 4060 Ti – отличный middle-ground

RTX 5060 (8 GB)

7B-модели, мелкие MoE

Свежее, шустрое, но 8 ГБ сильно ограничивают

RTX 4070 / 4070 Ti (12/16 GB)

26B MoE, Qwen3.6 35B-A3B (с трюками)

На 4070 Ti 16 GB Gemma 4 26B MoE в Q4_K_M даёт ~30 токен/с

RTX 3090 (24 GB)

30B–34B спокойно, 70B с сильным сжатием

Вечный “король цены за гигабайт VRAM”: б/у за 700–800 $, при том же объёме памяти, что и у RTX 4090, и почти той же скорости инференса

RTX 4090 (24 GB)

То же, что 3090, но быстрее

Вкуснее по скорости, но в 2,5 раза дороже

Откровение для геймеров.RTX 3090 – старушка 2020 года выпуска – до сих пор в топе для домашнего ИИ просто потому, что у неё24 ГБ VRAM. Новенькая RTX 4060 Ti с 8 гигами в инференсе LLM ей проиграет. Здесь не та игра, где “40 > 30 = лучше”.

Apple Silicon – отдельный лагерь со своими правилами. У Mac unified memory: оперативка и видеопамять – это одна и та же физическая память. Apple-чипы делят память между CPU и GPU, и на M4 Max с 128 ГБ unified memoryвидеоядру доступен весь этот объём, без отдельного лимита VRAM. Это позволяет крутить модели, которые на “обычном” ПК потребовали бы серверного железа. Но цена – скорость: грубо говоря, RTX 4090 строчит токены как пулемёт (80+ токен/с), а Mac – как опытный скорочтец (10–20 токен/с).

И ещё про железо в целом

RAM– берите минимум 32 ГБ. Запас под модель должен быть примерно двукратным: для 4-гигового Q4-файла нужно около 8 ГБ свободной RAM, чтобы всё работало плавно. Это правило, не пожелание.
Диск– только NVMe SSD. Модели весят от 4 до 40+ ГБ, а грузить 22-гиговый чекпойнт с обычного HDD – занятие для обладателей бесконечного терпения.
CPU– менее критичен для самой генерации, но важен для обработки промпта и работы в многопользовательском режиме. Восемь ядер – норм, шестнадцать – комфортно.
БП– 750 W для одной карты, 850–1000 W для топовой, 1200+ для двух. Локальный ИИ – это сустейнд-нагрузка, а не всплеск, как в играх.

Память – главное “не забудьте”

Модель занимает память всё время, пока она загружена.Не “во время генерации”, не “когда вы пишете промпт” – авсё время. Загрузили gemma4:26b – отдали 14 ГБ видеопамяти, и они никуда не денутся, пока вы не выгрузите модель явно. То есть планируйте свой день так: если вы запускаете ИИ – закрывайте всё лишнее. И я говорю серьёзно, как диспетчер, который считает каждую открытую вкладку Chrome.

Что это значит на практике:

Игры – нет. Видеопамять занята.
Фильм в 4K через DaVinci Resolve – не одновременно с моделью.
Stable Diffusion на той же карте – забудьте.
Десять вкладок Chrome с YouTube – а вот тут уже считаем. Каждая “жирная” страница – это сотни мегабайт RAM, и если у вас 32 гига и модель просит 22, остаётся 10 на ВСЁ остальное. Включая саму Windows.

Отсюда правило:берите железо с запасом. Лучше иметь свободные 8 ГБ поверх модели, чем потом гадать, почему системой невозможно пользоваться. Альтернатива – использовать более ужатые квантования (Q4 вместо Q8 экономит вдвое-втрое VRAM при умеренной потере качества), но об этом ниже.

И ещё одна тонкость:больший контекст – больше памяти. Контекст в 32k токенов весит куда больше, чем в 4k, потому что под KV-кэш нужно физическое место. Так что когда видите соблазнительную надпись “context window 256K”, не спешите радоваться: на домашнем железе вы в жизни столько не используете. Один из обозревателей прямо пишет, что Gemma 4 заявляет 256K контекста, но на потребительском железе реально стоит рассчитывать на ~20K токенов – после этого вывод резко проседает из-за давления на память. Двадцать тысяч – и всё, дальше упор в память.

Форматы моделей: GGUF, MLX и прочая алхимия

Прежде чем мы перейдём к моделям, нужно разобраться с одним важным понятием –квантованиеиформат хранения весов.

Изначально модель из лаборатории – это огромная папка PyTorch-файлов, где каждый параметр занимает 16 или 32 бита. Для 7B-модели это 14–28 ГБ только весов. Для 30B (30 миллиардов параметров) – 60+ ГБ. На домашнем ПК такое не запускают: на запуск нужен сервер с A100/H100.

И тут на сцену выходитGGUF– формат, разработанный Георгием Гергановым (тот самый llama.cpp). Если объяснять простыми словами, исходные модели – это “огромные книги на языке, которого ваш компьютер не понимает”. Идея GGUF простая: ужать каждый параметр до 4, 5, 6 или 8 бит – и одновременно так упаковать веса, чтобы онимогли работать и в RAM, и в VRAM, и даже наполовину там, наполовину тут. Это, кстати, ключевое отличие GGUF от других форматов: он спроектирован не только под видеопамять. Если у вас слабая карта – часть слоёв уехала в обычную оперативку и модель всё равно крутится, пусть медленнее.

Когда вы видите названия типаQ4_K_M,Q5_K_S,Q8_0– это уровни квантования:

Самое жёсткое сжатие

Заметная потеря

~25% от FP16

“Народный” вариант

Почти не отличается

~33% от FP16

Чуть лучше Q4

Очень хорошее

~40% от FP16

Для требовательных

~50% от FP16

Почти без потерь

~55% от FP16

💡Правило большого пальца.Начинайте сQ4_K_M– это золотая середина для большинства домашних задач. Q4 – это, по сути, “лайт-версия” модели: запускается быстро, работает почти на любом компьютере, а потери качества по сравнению с FP16 для большинства задач едва заметны. Если есть свободная VRAM – поднимайтесь до Q5 или Q6. Q8 – это уже для перфекционистов.

Помимо GGUF, есть и другие форматы:MLXдля Apple Silicon (нативно использует Metal),GPTQиAWQ(квантования для GPU-ориентированных рантаймов),ONNX(универсальный для WebGPU и не только). Но для домашнего пользователя в 95% случаев имеет значение именно GGUF – потому что он работает везде и без головной боли.

Программы-оболочки: где и как всё это запускать

Теоретически вы можете собрать llama.cpp из исходников, написать конфиги, разобраться с CUDA – и запустить модель из терминала. Практически – этого делать не нужно. У нас 2026-й, и есть отличные оболочки для людей, которые не хотят коротать вечер, разбираясь, почему cmake ругается на отсутствие nvcc.

Разберу четыре самые популярные.

LM Studio – лучший GUI для большинства

Если бы я выбирал одну программу для подруги, которая впервые садится за локальный ИИ, – я бы выбралLM Studio. Это, наверное, самый отполированный графический интерфейс среди всех инструментов для локальных LLM, и он действительно делает запуск моделей доступным для людей без технического бэкграунда.

Что внутри: красивый интерфейс, встроенный браузер моделей с Hugging Face, ползунки для всех параметров, чат прямо в приложении и – что важно – встроенный API-сервер, совместимый с OpenAI. Поставил, открыл вкладку “Discover”, ввёл “gemma 4”, скачал, нажал “Load” – и через минуту уже общаешься.

Установка– заходите наlmstudio.ai, скачиваете установщик (есть для Windows, macOS на M-чипах, Linux). Запускаете. Всё.

Что особенно приятно, LM Studio показывает, влезет ли выбранная модель в ваше железо. Зелёная галочка – запустится. Жёлтая – частично, через offload на CPU. Красная – забудьте. Это спасает от часовых скачиваний с последующим разочарованием.

Из практики:если вы используете ноутбук с iGPU или скромной дискреткой – LM Studio автоматически подберёт квантование под вашу память. Можно даже не думать. Хотите больше контроля – есть вкладка “Developer” с кучей параметров от флэш-внимания до KV-квантизации.

Ollama – командная строка для людей

Ollama– это, по сути, docker run для нейросетей. Однострочные команды, поддержка более 200 моделей. Ставите, открываете терминал, пишете:

И через пару минут (зависит от скорости интернета – модель в Q4 весит ~14 ГБ) у вас в терминале запущенный чат с Gemma 4.

Установка:

macOS:brew install ollamaили скачать сollama.com
Windows: установщик с того же сайта
Linux:curl -fsSL https://ollama.com/install.sh | sh

Ollama сам поднимает локальный API на порту 11434, совместимый с OpenAI. Это значит, что любой клиент, умеющий ходить в OpenAI API, можно перенаправить на Ollama сменойbase_url.

Если в LM Studio вы “играете” интерфейсом, то в Ollama – пишете команды. Зато скрипты автоматизации делать на ней одно удовольствие.

Jan – ChatGPT-альтернатива в одном клике

Jan– это “ChatGPT, но локально”. Под капотом – универсальный движок Cortex, который работает практически на любом железе, и встроенная библиотека популярных моделей: Llama⚹, Gemma, Mistral, Qwen и другие. Сам же интерфейс такой же чистый, как у ChatGPT. Скачать –jan.ai, есть .exe для Windows, .dmg для Mac (Intel и Apple Silicon), .AppImage и .deb для Linux.

Особенно удобно для новичков: Jan сам подберёт модель оптимального размера под ваш компьютер. Кроме того, можно подключить OpenRouter или Groq как “облачный фолбэк” – когда нужна более мощная модель, а локальная не справляется.

Chat with RTX (ChatRTX) – для владельцев Nvidia RTX

Отдельная история –ChatRTX от Nvidia. Это узкоспециализированное приложениетолько под Windows и только под RTX 30/40/50-серию (и новее)с минимум 8 ГБ VRAM. По сути, это бесплатное демо-приложение от Nvidia, которое позволяет “персонализировать” чат-бота своим контентом – а под капотом работает локальная видеокарта с TensorRT-LLM и RAG.

Что оно умеет, чего не умеют другие?Локальный RAG прямо из коробки. Вы натравливаете программу на папку с вашими .pdf, .txt и .docx-файлами, она строит индекс – и потом отвечает на вопросы строго по этим документам. Можно даже скармливать YouTube-ссылки, и ChatRTX утянет транскрипты и проиндексирует их.

Минусы: только дистрибутив весит около 35 ГБ, а после установки нужно держать ~100 ГБ свободного места. Под капотом – Mistral или Llama 2⚹, оптимизированные через TensorRT-LLM. Это даёт прирост скорости на RTX-картах за счёт тензорных ядер, но в обмен на гибкость: своих моделей туда не подкинуть, а сами модели в наборе ChatRTX уже не самые новые.

Вердикт: отличный инструмент для конкретной задачи – поиск по своим документам с ответом на естественном языке. Для общего чата, кода и мультимодала – лучше будет LM Studio.

🎮Маленькая параллель: ChatRTX похож на “офисный пакет от производителя железа”. Помните, как в нулевые к каждой материнке шёл диск с фирменным антивирусом? Так вот, ChatRTX – это Nvidia, заботливо положившая в коробку свой ИИ.

Msty– ещё один удобный способ быстро и удобно скачать и запустить локальные ИИ-модели в формате GGUF. Читайте об этом по ссылке:

Топ моделей 2026 года: что реально стоит запускать дома

Окей, инструменты разобрали – теперь к самому интересному. Я отобрал десять моделей, которые, на мой взгляд, наиболее интересны для домашнего использования в 2026 году. Подбор основан на трёх критериях: запускается на потребительском железе, имеет понятную нишу и поддерживается основными оболочками. Поехали.

1. Gemma 4 – звезда сезона

Если бы у меня спросили: “Какую одну модель скачать на новый ноутбук?” – я бы не задумываясь сказал:Gemma 4. Релиз 2 апреля 2026 года под Apache 2.0, четыре варианта – E2B, E4B, 26B MoE и 31B Dense. По бенчмаркам 31B-версия пробила топ-3 Arena AI Leaderboard и побеждала модели в 20 раз большего размера – для опенсорса это серьёзная заявка.

Самое сладкое –26B MoE. Это mixture-of-experts: всего 26 миллиардов параметров, но активны только 4 миллиарда на токен. На практике это значит: качество рассуждения близко к полной 31B-модели, при этом всё помещается в 14 ГБ VRAM при Q4-квантовании. То естьскорость как у 4B-модели, ум – как у 30B. На RTX 4070 Ti с 16 ГБ крутится в Q4 со скоростью около 30 токен/с. На M4 Pro MacBook – около 50 токен/с.

Бенчмарки впечатляющие: 31B-версия выдаёт 89,2% на AIME 2026 (математика), 80,0% на LiveCodeBench v6 (кодинг), 84,3% на GPQA Diamond (наука). Для сравнения – у Gemma 3 на тех же тестах было 20,8%, 29,% и 42,4%. То естькаждая метрика выросла примерно в три раза за одно поколение.

Активные параметры

Лучше всего для

Gemma 4 E2B

Raspberry Pi, мобильные

Gemma 4 E4B

Ноутбуки, быстрые задачи, мультимодал

Gemma 4 26B MoE

3,8 млрд (из 26)

Лучший баланс, общий ассистент

Gemma 4 31B Dense

Максимум качества (на 24 ГБ GPU)

Запуск через Ollama(универсальный для Windows/Mac/Linux):

E2B и E4B – мультимодальные, понимают изображения и звук. Старшие 26B и 31B – только текст. Хотите смотреть картинки локально – берите E4B.

⚠️Подводные камни на апрель 2026-го.В Ollama сломан tool calling для Gemma 4 – на сложных агентских задачах (Codex CLI, opencode) лучше использовать llama.cpp. Парсер tool-call падает, а в стриминге tool-вызовы вообще теряются. На Apple Silicon – отдельный баг с Flash Attention: на M-серии не стоит выставлятьOLLAMA_FLASH_ATTENTION=1, иначе на промптах длиннее ~500 токенов 31B-модель просто зависает.

Для агентского кодинга есть приятная новость: на бенчмарке tau2-bench в плане качества вызова инструментов Gemma 4 31B даёт 86,4% – это уже жизнеспособный уровень. Раньше у Gemma 3 было 6,6%, и tool calling у неё был, мягко говоря, мёртв.

Ссылки:официальная страница;Gemma 4 26B-A4B на Hugging Face.

2. Qwen3.6 35B-A3B – народная любовь для разработчиков

Если Gemma – это “универсальный солдат”, тоQwen3.6 35B-A3B– это прицельная винтовка для одной аудитории: разработчиков. Модель вышла в апреле 2026-го, MoE-архитектура, 35 млрд параметров, из которых активны всего 3,5B на токен.

Самый выразительный кейс –статья на “Хабре”про запуск этой модели наRTX 4070 12 GB + 32 ГБ RAMчерез LM Studio. Это, в общем-то, обычное домашнее железо геймера. И вот эта связка реально превращается в ИИ-ассистента для кода.

Фишка – параметр--cmoe(илиngl+ncmoeв LM Studio). Логика контринтуитивная: сначала отдаём все слои на GPU, потом возвращаем тяжёлые MoE-веса в RAM. На GPU остаются только лёгкие тензоры внимания. В итоге6,2 ГБ VRAM вместо 12 ГБ, а скорость генерации – 42 токена в секунду. Это вполне рабочий темп.

40 (макс.)

Все слои пытаемся отдать GPU

MoE-веса возвращаем в RAM

Flash attention

Экономия памяти под контекст

Баланс качество/память

Batch size

Быстрая обработка контекста

Бенчмарки заметные: SWE-bench Verified 73,4%, Terminal-Bench 2.0 51,5%, GPQA Diamond 86%. По кодингу обгоняет dense-модели большего размера. И главное –отлично работает с русским языком, что для нашей аудитории крайне важно.

Запуск как кодинг-ассистента вopencodeчерез LM Studio API:

А дальше – магия: модель сама запускает explore-агента, делает 173 вызова инструментов и перечитывает кодовую базу. Это уже не “помощник”, а почти джун.

3. Qwen 3.5 9B – лёгкая и хитрая

Если 35B – это “для разработчиков с RTX 4070”, тоQwen 3.5 9B– это “для всех остальных, у кого хотя бы 8 ГБ VRAM”. И это, пожалуй, самая внезапно хорошая модель в обзоре.

Главная фишка – архитектураGated DeltaNet (GDN). В отличие от стандартных трансформеров, у которых KV-кеш растёт линейно с длиной контекста, у GDN память почти фиксированная. То есть модель работает с длинным контекстом, не съедая всё больше и больше VRAM по мере удлинения сессии. Поддерживает до 262K токенов нативно – для модели на 9 миллиардов это, мягко говоря, неожиданно.

Размер на диске – около 6,6 ГБ. В Q4_K_M нужно 5,1–5,7 ГБ VRAM. На 8-гиговой карте контекст можно поднимать до 60 000 токенов без проблем – вот это уже реально полезно для длинных документов и долгих сессий.

И что меня лично подкупило в этой модели –она мультимодальна из коробки. Qwen 3.5 9B нативно работает с текстом, изображениями и даже видео из одних и тех же весов – никаких отдельных vision-компонентов скачивать или настраивать не нужно.

Из практики использования: модель быстро читает PDF и суммирует 160-страничный документ. Особенно впечатляет анализ картинок – даже на снимке без чёткой композиции (например, просто шерсть кота на одеяле) она аккуратно описывает сцену.

Парочка лайфхаков:thinking mode по умолчанию включён.Если вам не нужно “думать вслух” – выключите. Также увеличьте контекстное окно (по умолчанию runner ставит маленькое) и поставьтеpresence_penaltyоколо1.5– это спасает от “многословия”. В системный промпт – “Be concise, skip the preamble”.

4. gpt-oss-20b – близкое к ChatGPT, но дома

Август 2025-го стал странным месяцем:OpenAI, та самая, которая много лет говорила “open” только в названии, выпустила open-weight-модели. И это были gpt-oss-20b и gpt-oss-120b. 120B – для серверов. 20B – вот тут уже домашний сценарий.

Архитектура: 21 миллиард параметров, MoE с 3,6B активными на токен – то есть скорость инференса как у небольшой 3-4B-модели. Нативно поддерживает контекст до 128K токенов.

Память: GPT-OSS 20B комфортно работает на high-end потребительском железе – рекомендуется минимум 32 ГБ RAM, и желательна карта с 12+ ГБ VRAM. На 8-гиговой 3070 модель работает, но контекст приходится резать (мы уже обсуждали почему).

Стиль ответов – узнаваемо “опенаишный”. Это ближе всего к тому самому “локальному ChatGPT” – ответы знакомы по тону, и базовые задачи модель не валит.

Где блистает:структурированные объяснения, разбор плотных текстов, кодовые задачи с цепочкой рассуждения. Если у вас под рукой документ с тяжёлым жаргоном (медицинский, юридический, технический) – gpt-oss-20b неплохо его пожуёт.

Где проседает:длинные сессии и большой контекст. На 8 ГБ VRAM окно контекста быстро упирается в потолок – токены заканчиваются раньше, чем хочется. Если у вас 16+ ГБ VRAM, проблема снимается и модель раскрывается.

Под Apache 2.0, что для open-weight от OpenAI – само по себе событие года. Запускается через Ollama, LM Studio, vLLM, всё стандартно:

5. Mistral Small / Mistral 7B – европейский середняк

Mistral – это, наверное, самый “спокойный” бренд в локальном ИИ. Они не делают ставку на революцию каждый месяц, а методично выкатывают надёжные модели с упором на европейские языки и корпоративные задачи.

Для дома интересны два варианта:

Mistral 7B– ветеран, маленький, проверенный временем. Идеален как дефолт, когда нужна модель, которая просто работает.
Mistral Small (22B)– серединка. Минимум 16 ГБ RAM, рекомендуемая VRAM ~12 ГБ, размер квантованного варианта около 13 ГБ. Лучше с инструкциями, лучше с длинным контекстом.

Mistral Large 3 был выпущен в декабре 2025-го – это уже 675B MoE, для дома не подходит совсем, нужен серверный кластер. Но идеи и настройки доходят и до маленьких моделей.

Сильные стороны Mistral: серьёзная поддержка европейских языков (французский, немецкий, испанский, итальянский), стабильный вызов функций и плавающее окно внимания для длинного контекста. Зрелая экосистема, мало сюрпризов – то, что ценят в продакшене.

6. Phi-4 – для слабого железа

Phi-4 – это исследовательская линейка от Microsoft. Идея –сделать маленькую модель, которая ведёт себя как большая. Microsoft взяли курс на исследовательский подход к данным и обучению и сумели выжать из 3,8B и 14B параметров вполне солидные результаты.

Размеры: 3,8B и 14B параметров. Память: 14B-вариант требует около 12 ГБ RAM минимум, рекомендуется GPU с 8 ГБ VRAM, размер квантованного файла – около 8 ГБ. То есть запустится даже на скромной RTX 3060 8 ГБ. 3,8B – на чём угодно, хоть на ноутбуке без дискретной карты.

Сильные стороны –структурированные задачи: извлечение данных, классификация, JSON-генерация, простые скрипты. Где Phi-4 проседает – это творческие задачи, длинные тексты с настроением, многоступенчатые рассуждения. То есть если ваша работа – “Возьми этот PDF и вытащи мне все имейл-адреса в формате CSV”, Phi-4 справится отлично. Если “Напиши эссе о русской поэзии Серебряного века” – лучше что-то другое.

7. DeepSeek R1 и V3.2 – режим думающего инженера

DeepSeek – это китайский стартап, который внезапно стал серьёзной силой в опенсорсе.DeepSeek V3.2– модель с режимом рассуждения, которая думает вслух перед каждым ответом. Сильна в продвинутых рассуждениях, математике и анализе кода. Требования по памяти зависят от варианта – от 16 ГБ RAM для маленьких до 64+ ГБ для полноценных конфигураций.

Полная V3.2 – это серверная история. Но естьдистиллированные варианты на 7B, которые комфортно запускаются дома. Обычно их делают в формате deepseek-v3.2-exp:7b или deepseek-r1-distill:7b – поищите в каталоге Ollama или на Hugging Face.

Где DeepSeek хорош:

Математика и пошаговые рассуждения– модель буквально расписывает каждый шаг
Анализ кода– особенно когда нужно понять чужую логику
Логические задачки– сравнение, перебор вариантов, проверка гипотез

Где будет тормозить – обычные “болтательные” задачи. Пока модель медитирует, простой ответ можно было бы получить от Qwen 3.5 в три раза быстрее.

8. Whisper – единственный звуковой король

Если все предыдущие – это про текст, тоWhisper– про звук. Это транскрибация: вы даёте аудиофайл, он возвращает текст.

Whisper – открытая модель от OpenAI (одна из немногих, кстати, и да, выпущена сильно раньше gpt-oss). Под капотом – обычный трансформер, обученный на 680 000 часов мультиязычного аудио. Но запускают её обычно не через PyTorch, а черезwhisper.cpp– порт на C/C++ от Георгия Герганова (того же автора llama.cpp и формата GGUF/GGML).

Размеры моделей: tiny (~75 MB), base (~140 MB), small (~480 MB), medium (~1,5 ГБ), large-v3 (~3 ГБ). И есть прекрасный distill-large-v3, который, по бенчмаркам Hugging Face, на Mac M1 работает в пять раз быстрее full large-v3, теряя при этом меньше 1% точности (WER) на длинном аудио.

С скоростью на современном железе вообще песня: тридцатиминутное совещание whisper.cpp на маленькой английской модели транскрибирует на MacBook Air за 100–120 секунд. Полчаса аудио – за две минуты. На GPU (CUDA) – ещё в разы быстрее, до 30-кратного ускорения по сравнению с CPU. Однако если модель крупная (large-v3 – наиболее точно разбирает слова, по крайней мере когда говорят по очереди) и язык неанглийский, то это время стоит умножать раз в семь: на RTX 3060 12 ГБ 30-минутный файл будет расшифровываться минут 15, в зависимости от плотности речи, и при этом модель заполнит почти всю видеопамять.

Что использовать на практике:

WhisperDesktop– Windows-приложение с GUI, использует DirectCompute, работает на любых видеокартах с DirectX 11. Скачали .exe, выбрали модель, выбрали файл – готово.
whisper.cppнапрямую – для тех, кто не боится терминала:

MacWhisperилиVocoding– приложения для Mac с красивым интерфейсом поверх whisper.cpp.

Whisper Large v3 – пожалуй, единственная модель в этой подборке, которая реально полностью заменяет облачные сервисы для своей задачи.

9. Llama 4 8B⚹ – народный стандарт

Линейка Meta’шной⚹ Llama⚹ продолжает быть “эталонным дрожжевым тестом” открытых моделей. Llama 4 8B⚹ – это “золотой стандарт” для базовых задач. Хватит RTX 3060 с 6 ГБ VRAM, размер квантованного файла около 4,5 ГБ. Запустится на чём угодно от RTX 3060 и выше.

Сильные стороны:огромная экосистема файнтюнов. Если вы хотите специализированную модель, почти наверняка кто-то на Hugging Face уже обучил такую на базе Llama⚹. Это, пожалуй, главное преимущество перед более экзотическими моделями.

Слабые стороны:на бенчмарках начинает уступать Gemma 4 и Qwen3.5 при сравнимом размере. То есть как дефолт – да, как “лучшее предложение” – уже нет.

И есть ещё одна тонкость, которую стоит знать: Meta⚹ в начале 2026 года начала разворачиваться к закрытым моделям (Muse Spark и так далее). Что произойдёт с дальнейшей открытостью Llama⚹ – открытый вопрос. Поэтому пока – берите что есть и не делайте ставку на бесконечное развитие линейки.

10. Nvidia Nemotron Cascade 2 – для владельцев RTX

Если у вас Nvidia-RTX-карта и вам нужна скорость – обратите внимание наNemotron Cascade 2. Это ответ Nvidia на вопрос “Как нам выжать максимум из CUDA при инференсе?”. 30 млрд параметров, оптимизация под TensorRT и заявленные ~54 токен/с на связке RTX 4060 Ti + 3060.

По сути, Nemotron Cascade 2 – это новый флагман инференс-оптимизированных моделей Nvidia, заменивший прошлогодний Nemotron 3. По заявлениям, на потребительских GPU модель работает в 15 раз быстрее темпа человеческой речи, а качество сопоставимо с GPT-4o mini.

Требования: 16+ ГБ VRAM, желательно RTX 30/40-серии или новее. Запускается через Ollama, LM Studio, vLLM, llama.cpp и нативно через Nvidia NIM.

Реальный пример: тест трёх моделей на одной задаче

Чтобы не быть голословным, приведу один из обзоров, на которые я наткнулся.

RTX 3070 8 GB, LM Studio, три модели: Gemma 4 E4B, gpt-oss-20b и Qwen 3.5 9B.Три задачи: разбор скриншотов и картинок, структурные объяснения и Q&A с длинным контекстом (например, конспекты курсов).

Что выяснилось:

gpt-oss-20b– лучший в структурных объяснениях. Если вам нужно разобрать плотный технический текст и получить понятную выжимку – берите его. Минус: на 8 ГБ VRAM упирается в ограничения контекста.
Qwen 3.5 9B– победитель по соотношению “качество/железо”. Хорошо держит длинный контекст благодаря GDN, мультимодален, читает PDF, описывает картинки.
Gemma 4 E4B– отличный мультимодал, но есть странность: он склеивает “мысли” и собственно ответ в один поток. Потому может как бы начать с фразы “User has provided an image”, обращаясь к вам в третьем лице. Чуть холодноватый. Но картинки разбирает методично.

Сводный вердикт обозревателя: Qwen – для длинного контекста, фактологии и общего использования; gpt-oss – когда нужно аккуратное структурное рассуждение и хватает железа; Gemma – когда вы кидаете в неё медиа и нужен подробный визуальный разбор.

⚹Meta – деятельность организации запрещена на территории Российской Федерации.⚹Llama – проект компании Meta Platforms Inc., деятельность которой запрещена на территории Российской Федерации.

Читать оригинал