GLM-5.1 — новая открытая модель от Z.ai с 744 млрд параметров (40 млрд активных) и контекстным окном 200K. По сравнению с GLM-5 улучшена генерация кода, логические рассуждения и работа с инструментами.
Полная версия модели требует 1,65 ТБ дискового пространства. Квантованные версии GGUF от Unsloth занимают меньше места: 2-битная — 220 ГБ, 1-битная — 200 ГБ.
Важно: не используйте CUDA 13.2 для GGUF — это может ухудшить качество ответов.
Требования к оборудованию
Версия UD-IQ2_M подходит для Mac с 256 ГБ оперативной памяти. Также она работает на ПК с одной видеокартой на 24 ГБ и 256 ГБ ОЗУ с использованием MoE offloading.
Для 1-битной версии требуется 220 ГБ памяти, для 8-битной — 805 ГБ.
Использование Unsloth Studio
Установка доступна для MacOS, Linux, WSL и через Windows PowerShell.
После запуска откройте http://localhost:8888. В поиске найдите GLM-5.1. Рекомендуется выбирать версию UD-Q2_K_XL. Если VRAM недостаточно, система автоматически задействует оперативную память.
Использование llama.cpp
Соберите llama.cpp из официального репозитория на GitHub. Для систем без GPU или Mac с Metal используйте флаг -DGGML_CUDA=OFF при сборке.
После сборки можно запустить модель в обычном режиме или в режиме вызова инструментов.
Работа через API
Для запуска сервера используйте соответствующую команду. Пример Python-кода для обращения к серверу доступен в документации.
Вызов функций
GLM-5.1 поддерживает вызов инструментов. Определите функции на Python и передайте их описание в модель.
Модель может использовать эти функции для выполнения вычислений или системных команд. При использовании llama-server автоматическая обработка вызовов настраивается через цикл, который проверяет наличие tool_calls в ответе и возвращает результат выполнения функции.