Локальный запуск GLM-5.1

Локальный запуск GLM-5.1

GLM-5.1 — новая открытая модель от Z.ai с 744 млрд параметров (40 млрд активных) и контекстным окном 200K. По сравнению с GLM-5 улучшена генерация кода, логические рассуждения и работа с инструментами.

Полная версия модели требует 1,65 ТБ дискового пространства. Квантованные версии GGUF от Unsloth занимают меньше места: 2-битная — 220 ГБ, 1-битная — 200 ГБ.

Важно: не используйте CUDA 13.2 для GGUF — это может ухудшить качество ответов.

Требования к оборудованию

Версия UD-IQ2_M подходит для Mac с 256 ГБ оперативной памяти. Также она работает на ПК с одной видеокартой на 24 ГБ и 256 ГБ ОЗУ с использованием MoE offloading.

Для 1-битной версии требуется 220 ГБ памяти, для 8-битной — 805 ГБ.

Использование Unsloth Studio

Установка доступна для MacOS, Linux, WSL и через Windows PowerShell.

После запуска откройте http://localhost:8888. В поиске найдите GLM-5.1. Рекомендуется выбирать версию UD-Q2_K_XL. Если VRAM недостаточно, система автоматически задействует оперативную память.

Использование llama.cpp

Соберите llama.cpp из официального репозитория на GitHub. Для систем без GPU или Mac с Metal используйте флаг -DGGML_CUDA=OFF при сборке.

После сборки можно запустить модель в обычном режиме или в режиме вызова инструментов.

Работа через API

Для запуска сервера используйте соответствующую команду. Пример Python-кода для обращения к серверу доступен в документации.

Вызов функций

GLM-5.1 поддерживает вызов инструментов. Определите функции на Python и передайте их описание в модель.

Модель может использовать эти функции для выполнения вычислений или системных команд. При использовании llama-server автоматическая обработка вызовов настраивается через цикл, который проверяет наличие tool_calls в ответе и возвращает результат выполнения функции.

Читать оригинал