Как установить DeepSeek на сервере: практическое руководство

Как установить DeepSeek на сервере: практическое руководство

Рано или поздно наступает момент, когда понимаешь: без LLM, работающей только на вас, дальше жить нельзя. Публичные модели, даже в платных подписках, — это всегда риск. Сомнения в том, не передаёт ли OpenAI или Alibaba вашу переписку, никуда не деваются. А внезапные «извините, этот сервис недоступен в вашем регионе» или жёсткая цензура окончательно всё портят.

Что такое DeepSeek

DeepSeek — это семейство больших языковых моделей (англ. Large Language Model, LLM), разработанных китайской компанией DeepSeek. Код и модели DeepSeek распространяются открыто под лицензиями, разрешающими как некоммерческое, так и коммерческое использование.

Открытость предоставляет выбор между удобством и конфиденциальностью:

  • Онлайн-версия. Доступна на chat.deepseek.com. Быстрая и не требует настройки, но данные могут использоваться для обучения. Это неприемлемо для компаний с корпоративными секретами.
  • Локальная версия. Требует сервер и настройку, но все данные остаются у вас.

Для запуска локальной версии нужен мощный сервер. Насколько мощный — зависит от модели, терпения и бюджета.

Ключевая характеристика LLM — количество параметров. Чем их больше, тем «умнее» модель и тем больше ресурсов она требует.

Полная модель DeepSeek-V3.2 содержит 685 млрд параметров. Для её запуска нужно 16 видеокарт NVIDIA A100 по 80 ГБ VRAM и более 768 ГБ ОЗУ. Это дорого и избыточно для домашнего использования.

Для личных задач подходят дистиллированные модели — упрощённые версии, обученные на основе большой модели. Например, для DeepSeek R1 доступны модели от 1,5 до 70 млрд параметров. Модель на 7 млрд параметров можно запустить даже на игровой видеокарте, например, из серии RTX 30.

Дистиллированные модели работают на CPU, GPU и специализированных ускорителях. Оригинальные версии DeepSeek оптимизированы под видеокарты NVIDIA с CUDA, а с недавнего времени — и под ИИ-ускорители Huawei Ascend.

В этом руководстве используем сервер с видеокартой NVIDIA A5000 — серверным аналогом RTX 3080.

Заказываем сервер

Для запуска DeepSeek воспользуемся облачной платформой Selectel. Она позволяет гибко масштабировать ресурсы.

В панели управления выбираем «Продукты» → «Облачные вычисления» и нажимаем «Создать сервер».

Задаём имя, выбираем регион «Москва» и пул «ru-7» — там наибольший выбор GPU.

В настройках выбираем GPU-конфигурацию и указываем видеокарту A5000. Функция автовыбора образа установит Ubuntu с драйверами для видеокарты.

Добавляем SSH-ключ, настраиваем сеть и диски. Рекомендуется использовать SSD для быстрой загрузки моделей.

Создаём сервер. Через несколько минут он станет доступен. Проверяем подключение по SSH и наличие видеокарты.

Теперь сервер готов к установке модели.

Установка DeepSeek

Если вы хотите просто поэкспериментировать, лучше использовать инструменты с готовыми интерфейсами. Если планируете интеграцию в проект — можно обойтись минимальными зависимостями.

Все модели DeepSeek доступны на HuggingFace. Если вы работаете с Python, вы, скорее всего, уже знакомы с huggingface-hub.

Для новичков подойдёт Harbor — менеджер моделей и сервисов, работающий на базе Docker и git.

Harbor — это менеджер, который позволяет управлять моделями и сервисами, которые используют эти модели. Для работы Harbor нужны Docker и git.

Устанавливаем git, затем Docker, а после — Harbor.

После установки перезайдите на сервер: это нужно, чтобы команда harbor стала доступна.

Обратите внимание: инструкции используют команды, которые скачивают и выполняют скрипты с правами суперпользователя. Это небезопасно, так как скрипты могут быть изменены. Такой подход допустим для тестовых сред, но в продакшене ПО следует устанавливать вручную из доверенных источников.

Проверяем установку: Docker работает, GPU определяется и доступен в контейнерах. Можно продолжать.

Скачиваем модель deepseek-r1 с 8 млрд параметров. Другие варианты можно найти в репозитории ollama.

После загрузки запускаем сервисы.

В выводе отображается адрес webui — это веб-интерфейс в виде чата. Также доступен ollama-совместимый API для прямого взаимодействия с моделью. Оба порта по умолчанию доступны только локально — это мера безопасности.

Есть два способа открыть доступ:

  • настроить обратный прокси, домен и SSL;
  • пробросить порты через SSH.

Выберем второй способ — он быстрее и безопаснее.

Открываем в браузере http://localhost:33801 и видим интерфейс регистрации. Данные хранятся локально, можно использовать любые учётные данные.

Если вы решите открыть интерфейс в интернете, используйте надёжный пароль!

После регистрации выбираем модель и начинаем общение. Поскольку DeepSeek-R1 — «размышляющая» модель, генерация ответа занимает время. Скорость зависит от видеокарты. К счастью, облачная платформа позволяет легко менять конфигурацию сервера.

Масштабирование и оптимизация

Чтобы ускорить ответы или снизить расходы, измените конфигурацию сервера.

Откройте карточку сервера, нажмите «Изменить конфигурацию», выберите нужные параметры и нажмите «Сохранить и перезагрузить». После перезагрузки проверьте новую видеокарту.

По результатам тестов:

  • модель 8B требует около 12 ГБ VRAM;
  • 32B — около 28 ГБ;
  • 70B — около 51 ГБ.

Полная модель не поместится на одной видеокарте.

Заключение

Развернуть LLM — несложно. Главная сложность не в софте, а в железе. Если мало видеопамяти, пытаться запускать крупные модели бессмысленно — вы получите один токен в минуту и много раздражения.

Для большинства задач по коду и текстам хватит моделей 8B или 14B. Лучше выбрать более лёгкую модель, которая отвечает быстро, чем гнаться за большими параметрами на слабом оборудовании.

Читать оригинал