Рано или поздно наступает момент, когда понимаешь: без LLM, работающей только на вас, дальше жить нельзя. Публичные модели, даже в платных подписках, — это всегда риск. Сомнения в том, не передаёт ли OpenAI или Alibaba вашу переписку, никуда не деваются. А внезапные «извините, этот сервис недоступен в вашем регионе» или жёсткая цензура окончательно всё портят.
Что такое DeepSeek
DeepSeek — это семейство больших языковых моделей (англ. Large Language Model, LLM), разработанных китайской компанией DeepSeek. Код и модели DeepSeek распространяются открыто под лицензиями, разрешающими как некоммерческое, так и коммерческое использование.
Открытость предоставляет выбор между удобством и конфиденциальностью:
- Онлайн-версия. Доступна на chat.deepseek.com. Быстрая и не требует настройки, но данные могут использоваться для обучения. Это неприемлемо для компаний с корпоративными секретами.
- Локальная версия. Требует сервер и настройку, но все данные остаются у вас.
Для запуска локальной версии нужен мощный сервер. Насколько мощный — зависит от модели, терпения и бюджета.
Ключевая характеристика LLM — количество параметров. Чем их больше, тем «умнее» модель и тем больше ресурсов она требует.
Полная модель DeepSeek-V3.2 содержит 685 млрд параметров. Для её запуска нужно 16 видеокарт NVIDIA A100 по 80 ГБ VRAM и более 768 ГБ ОЗУ. Это дорого и избыточно для домашнего использования.
Для личных задач подходят дистиллированные модели — упрощённые версии, обученные на основе большой модели. Например, для DeepSeek R1 доступны модели от 1,5 до 70 млрд параметров. Модель на 7 млрд параметров можно запустить даже на игровой видеокарте, например, из серии RTX 30.
Дистиллированные модели работают на CPU, GPU и специализированных ускорителях. Оригинальные версии DeepSeek оптимизированы под видеокарты NVIDIA с CUDA, а с недавнего времени — и под ИИ-ускорители Huawei Ascend.
В этом руководстве используем сервер с видеокартой NVIDIA A5000 — серверным аналогом RTX 3080.
Заказываем сервер
Для запуска DeepSeek воспользуемся облачной платформой Selectel. Она позволяет гибко масштабировать ресурсы.
В панели управления выбираем «Продукты» → «Облачные вычисления» и нажимаем «Создать сервер».
Задаём имя, выбираем регион «Москва» и пул «ru-7» — там наибольший выбор GPU.
В настройках выбираем GPU-конфигурацию и указываем видеокарту A5000. Функция автовыбора образа установит Ubuntu с драйверами для видеокарты.
Добавляем SSH-ключ, настраиваем сеть и диски. Рекомендуется использовать SSD для быстрой загрузки моделей.
Создаём сервер. Через несколько минут он станет доступен. Проверяем подключение по SSH и наличие видеокарты.
Теперь сервер готов к установке модели.
Установка DeepSeek
Если вы хотите просто поэкспериментировать, лучше использовать инструменты с готовыми интерфейсами. Если планируете интеграцию в проект — можно обойтись минимальными зависимостями.
Все модели DeepSeek доступны на HuggingFace. Если вы работаете с Python, вы, скорее всего, уже знакомы с huggingface-hub.
Для новичков подойдёт Harbor — менеджер моделей и сервисов, работающий на базе Docker и git.
Harbor — это менеджер, который позволяет управлять моделями и сервисами, которые используют эти модели. Для работы Harbor нужны Docker и git.
Устанавливаем git, затем Docker, а после — Harbor.
После установки перезайдите на сервер: это нужно, чтобы команда harbor стала доступна.
Обратите внимание: инструкции используют команды, которые скачивают и выполняют скрипты с правами суперпользователя. Это небезопасно, так как скрипты могут быть изменены. Такой подход допустим для тестовых сред, но в продакшене ПО следует устанавливать вручную из доверенных источников.
Проверяем установку: Docker работает, GPU определяется и доступен в контейнерах. Можно продолжать.
Скачиваем модель deepseek-r1 с 8 млрд параметров. Другие варианты можно найти в репозитории ollama.
После загрузки запускаем сервисы.
В выводе отображается адрес webui — это веб-интерфейс в виде чата. Также доступен ollama-совместимый API для прямого взаимодействия с моделью. Оба порта по умолчанию доступны только локально — это мера безопасности.
Есть два способа открыть доступ:
- настроить обратный прокси, домен и SSL;
- пробросить порты через SSH.
Выберем второй способ — он быстрее и безопаснее.
Открываем в браузере http://localhost:33801 и видим интерфейс регистрации. Данные хранятся локально, можно использовать любые учётные данные.
Если вы решите открыть интерфейс в интернете, используйте надёжный пароль!
После регистрации выбираем модель и начинаем общение. Поскольку DeepSeek-R1 — «размышляющая» модель, генерация ответа занимает время. Скорость зависит от видеокарты. К счастью, облачная платформа позволяет легко менять конфигурацию сервера.
Масштабирование и оптимизация
Чтобы ускорить ответы или снизить расходы, измените конфигурацию сервера.
Откройте карточку сервера, нажмите «Изменить конфигурацию», выберите нужные параметры и нажмите «Сохранить и перезагрузить». После перезагрузки проверьте новую видеокарту.
По результатам тестов:
- модель 8B требует около 12 ГБ VRAM;
- 32B — около 28 ГБ;
- 70B — около 51 ГБ.
Полная модель не поместится на одной видеокарте.
Заключение
Развернуть LLM — несложно. Главная сложность не в софте, а в железе. Если мало видеопамяти, пытаться запускать крупные модели бессмысленно — вы получите один токен в минуту и много раздражения.
Для большинства задач по коду и текстам хватит моделей 8B или 14B. Лучше выбрать более лёгкую модель, которая отвечает быстро, чем гнаться за большими параметрами на слабом оборудовании.