Локальные LLM на слабом железе — что ставить, как запустить, чего ждать

Локальные LLM на слабом железе — что ставить, как запустить, чего ждать

Три года назад запуск 7-миллиардной модели локально требовал профессиональной видеокарты. Сегодня это возможно даже на слабом оборудовании — благодаря квантизации и удобным инструментам.

Квантизация позволяет сжимать веса моделей с 32-битной до 4-битной точности. Это уменьшает размер модели в 3–4 раза с минимальной потерей качества. Например, модель с 7 миллиардами параметров теперь занимает 4–5 ГБ вместо 14.

Параллельно появился Ollama — инструмент, упрощающий запуск LLM. Он устанавливается одной командой, автоматически использует GPU (NVIDIA, AMD, Apple Metal) или работает на CPU. Модели скачиваются как докер-образы и запускаются одной строкой без ручной настройки окружения.

Установка Ollama и моделей

После установки Ollama можно запустить нужную модель. При первом запуске она скачается автоматически.

Если нужно скачать модель заранее без запуска — это также возможно через командную строку.

Три тира под три уровня железа

Мы отобрали модели по двум критериям: работоспособность на слабом железе и практическая польза. Только стабильные версии, доступные через Ollama, без экзотических форков.

Тир 1 — 2–4 ГБ RAM, GPU не нужна

Подходит для офисных ПК или старых ноутбуков. Скорость: 15–20 токенов в секунду. Модели не рассуждают глубоко, но справляются с однозначными задачами.

  • smollm2:1.7b — перефразирование, классификация, прямые ответы.
  • qwen3:1.7b — суммаризация на русском, простые рассуждения, большой контекст.
  • qwen3:0.6b — короткие ответы, быстрая классификация, очень слабые устройства.
  • qwen2.5-coder:1.5b — написание и исправление кода, объяснение синтаксиса.
  • dolphin-phi — ответы на чувствительные темы, ролевые игры, тесты безопасности.
  • reader-lm:1.5b — преобразование HTML в Markdown, очистка разметки.

Также подходит для автодополнения, коротких чатов и edge-устройств.

Тир 2 — 6–8 ГБ RAM

Средний ноутбук. Скорость: 8–12 токенов в секунду. Модели справляются с многошаговыми задачами, часть может «думать вслух».

  • Решение задач по шагам, написание и объяснение кода, работа с длинными документами.
  • Написание писем, резюме, SQL по описанию, ответы по документам.
  • Следование сложным инструкциям, переписывание текста, использование инструментов.
  • gemma3:4b-it-qat — описание изображений на русском, суммаризация, ответы по скриншотам.
  • deepseek-r1:1.5b — логические задачи, математика, проверка ошибок.
  • orca-mini:3b — вопросы и ответы, объяснение понятий, суммаризация.

Тир 3 — 8–16 ГБ RAM

Скорость: 4–8 токенов в секунду на CPU. Модели заметно умнее — структурируют ответы, держат контекст, замечают противоречия.

  • Написание статей, планов, обзоров, сложного кода, дебаг с объяснением.
  • qwen2.5-coder:7b — написание модулей с нуля, рефакторинг, юнит-тесты, код-ревью.
  • mistral-small (22B) — анализ, юридические тексты, многоступенчатые инструкции.
  • gemma3:12b-it-qat — анализ изображений, работа с длинными документами и вопросами по ним.

RU: + хорошая поддержка, ~ базовая, - только EN

Практический краш-тест

Характеристики — это хорошо, но важно поведение в реальных задачах. Мы протестировали модели трёх тиров на простых задачах: объяснение понятия, математика по шагам, написание Python-функции. Все тесты — на Ollama v0.20.4, Windows, CPU, без GPU.

Выбор задач не случаен. Объяснение — проверка связности и знания русского. Математика — способность следовать алгоритму. Код — структурированный вывод с синтаксисом и примерами.

Задача 1 — математика: яблоки, треть, два друга

Запрос на английском для smollm2:

Pete has 12 apples. He ate a third of them, then split the rest equally between 2 friends. How many apples did each friend get? Show your work.

Запрос на русском для phi4-mini:

У Пети 12 яблок. Он съел треть, а остаток разделил поровну между двумя друзьями. Сколько яблок получил каждый друг? Покажи решение по шагам.

Задача 2 — объяснить, что такое RAM

Запрос для qwen3:8b с режимом размышлений:

Объясни в двух предложениях, что такое оперативная память (RAM) и зачем она нужна.

Задача 3 — Python-функция проверки палиндрома

Запрос на английском для smollm2:

Write a Python function that checks if a string is a palindrome. Add a docstring and 2 examples.

Запрос на русском для phi4-mini и qwen3:8b:

Напиши Python-функцию, которая проверяет, является ли строка палиндромом. Добавь docstring и два примера использования.

Да, для полной оценки нужно больше тестов. Но реальность такова: qwen3:8b на CPU выдаёт 4–5 токенов в секунду. Один ответ — минута-две ожидания. smollm2 быстрее, но ошибается даже в простой математике.

Здесь нет скорости облака. Придётся ждать. Но ради узкой задачи или тестирования — такие модели определённо полезны.

Читать оригинал