Запуск Qwen3.6 35B-A3B на RTX 4070 12GB для разработки без облака

Запуск Qwen3.6 35B-A3B на RTX 4070 12GB для разработки без облака

Я запустил Qwen3.6 35B-A3B на RTX 4070 12GB с 32GB RAM и настроил его как AI-ассистент для реального проекта в opencode.

Железо и ожидания

Моя конфигурация: RTX 4070 12GB VRAM, 32GB RAM, 12 физических ядер, Windows 11 + WSL2 (Ubuntu).

Почему MoE — это другая история

MoE-модели устроены иначе: из всех экспертов на каждом шаге активируется только небольшая их часть.

Qwen3.6 35B-A3B имеет 256 экспертов на каждом слое, но активирует только 8 routed + 1 shared.

Настройка в LM Studio

Для запуска выбрал LM Studio — удобный GUI поверх llama.cpp.

Реальные замеры скорости

42 токена/сек при генерации — для 35B модели отличный результат.

Подключение к opencode в WSL

Модель поднимает OpenAI-совместимый API на порту 1234.

Как модель работает с реальным проектом

Тестировал на своём проекте online-course-platform — микросервисная архитектура на FastAPI + React.

Анализ кодовой базы

Попросил: «Какие улучшения для проекта можешь предложить?»

Модель запустила explore-агент, сделала 173 вызова инструментов, реально прочитала весь код и выдала структурированный список из 23 улучшений.

Создание GitHub Issues

Попросил создать детальные issues для найденных проблем.

Модель изучила существующие паттерны тестов в проекте, написала детальные issues и создала их через gh CLI прямо в репозиторий.

Качество ответов

По бенчмаркам Qwen3.6 35B-A3B показывает сильные результаты среди MoE моделей.

На практике это подтверждается: модель правильно понимает контекст больших кодовых баз, генерирует рабочий код без галлюцинаций несуществующих API.

Параметры температуры

Официальная документация Qwen рекомендует для coding задач: temperature=0.6, top_p=0.95.

Qwen3.6 35B-A3B на RTX 4070 + 32GB RAM — это работающий вариант для разработчика, который хочет мощный локальный AI-ассистент без облачных расходов.

MoE архитектура позволила запустить то, что раньше требовало минимум 80GB RAM.

Читать оригинал