Локальные 200B уже не выглядят фантастикой: что меняют Bonsai и TurboQuant

Локальные 200B уже не выглядят фантастикой: что меняют Bonsai и TurboQuant

Последние новости в сфере ИИ натолкнули на обнадёживающую мысль: локальный запуск очень больших моделей — например, класса 200B — уже не кажется чем-то фантастическим.

Это ещё не реальность, но новые технологии приближают её. Две из них — Bonsai от PrismML и TurboQuant от Google Research — могут кардинально изменить требования к памяти и производительности при локальном инференсе.

Bonsai 8B: 1-bit веса и радикальное сжатие

PrismML представила Bonsai 8B — модель с 1-bit квантизацией весов, лицензированную под Apache 2.0. Её размер в формате GGUF составляет около 1,15 ГБ, что в 14,2 раза меньше, чем 16,38 ГБ у FP16-версии Qwen3-8B.

Архитектурно Bonsai основана на Qwen3-8B, но ключевая новизна — в end-to-end использовании 1-bit представления для embeddings, attention projections, MLP и LM head.

Каждый вес хранится как один бит (0 или 1), соответствующий −scale или +scale. На каждую группу из 128 весов приходится один общий FP16 scale. Это даёт эффективную глубину 1,125 бита на вес.

На инференсе веса не распаковываются полностью в FP16. Вместо этого используются специальные ядра с inline dequantization и отсутствием FP16 materialization. Это обеспечивает не только компактность, но и ускорение: до 6,2× на RTX 4090 и 4–5× лучшую энергоэффективность.

Производительность: 131 токен/с на M4 Pro, 368 токен/с на RTX 4090 и около 44 токен/с на iPhone 17 Pro Max.

По бенчмаркам Bonsai 8B набирает 70,5 балла (среднее по шести категориям), что уступает Qwen3-8B (79,3) и Mistral 3 8B (71,0), но превосходит Llama 3.1 8B (67,1). Главное — модель остаётся конкурентоспособной при радикальном сжатии.

Однако полный training recipe не раскрыт. Речь идёт о проприетарной математической основе, разработанной за годы исследований. Пока что воспроизведение технологии затруднено.

TurboQuant: сжатие KV-cache без потери качества

Google Research представила TurboQuant — метод экстремального сжатия KV-cache, одного из главных узких мест при работе с длинным контекстом.

В отличие от Bonsai, который сжимает веса, TurboQuant решает проблему рабочей памяти, не требуя дообучения модели.

Авторы показывают, что метод сохраняет качество при 3,5 битах на канал и допускает небольшую деградацию при 2,5 битах.

TurboQuant сжимает KV-cache до 3 бит без потери качества и даёт минимум 6-кратное снижение объёма в реальных экспериментах.

Пример: для Qwen3-235B-A22B при контексте 128k объём KV-cache в 16-битном формате — 23,5 GiB. С TurboQuant при 3,5 битах на канал — всего 5,1 GiB. Экономия — более 18 GiB.

Метод работает в два этапа: сначала данные «поворачиваются» в более сжимаемое пространство, затем компенсируется ошибка квантования, чтобы не нарушить вычисления.

Подход не только экспериментально проверен, но и математически обоснован.

Что будет, если объединить Bonsai и TurboQuant?

Представим, что 1-bit подход Bonsai удастся масштабировать на модели вроде Qwen3-235B-A22B.

Её веса в bfloat16 занимают около 437,7 GiB. При 14,2-кратном сжатии — как у Bonsai 8B — они сократятся до примерно 30,8 GiB.

При этом KV-cache при контексте 128k сожмётся с 23,5 GiB до 5,1 GiB благодаря TurboQuant.

Суммарно веса и кеш займут около 36 GiB вместо более чем 460 GiB в стандартном представлении.

Это не значит, что 235B-модель завтра запустится на домашнем ПК. Остаются накладные расходы рантайма, пропускная способность памяти и качество реализации ядер. Но сама траектория изменилась.

То, что считалось исключительно серверным классом, теперь выглядит как потенциальный кандидат на локальный запуск.

Связка 1-bit весов и эффективного сжатия KV-cache впервые делает реалистичной перспективу локальных моделей размером 200B и более.

Читать оригинал