Делаем лимиты ИИ почти бесконечными: умный роутер, который режет затраты на токены в разы

У меня несколько пет-проектов, которые используют LLM через API. Чат-бот для внутренних задач, генератор тестов, скрипты для код-ревью. Ничего масштабного, но за неделю расходы достигли $47 — и это только мои личные эксперименты.

Проблема очевидна: я отправляю все запросы в Claude Sonnet, хотя половина из них — простые задачи. «Переименуй переменные», «напиши docstring», «переведи текст». Их легко решит любая модель за $0.10 за миллион токенов, а я плачу $3–15.

Ручная фильтрация через if/else — неудобно и хрупко. Я начал искать LLM-роутеры и наткнулся на ClawRouter. Протестировал его неделю — делюсь результатами.

Что такое LLM-роутер

Идея проста: перед отправкой запроса специальный классификатор оценивает сложность промта и выбирает самую дешёвую модель, способную с ним справиться. Простой запрос — Gemini Flash за копейки. Сложный анализ — Claude Opus за полную цену.

Согласно исследованию RouteLLM (академический проект LMSYS, опубликован на ICLR 2025), можно сохранить 95% качества GPT-4, направляя в него лишь 14% запросов. Остальные — на дешёвые модели. Экономия достигает 75–85%.

Существующие решения: OpenRouter (агрегатор без автоматического роутинга), Martian (ML-роутер, только для enterprise), RouteLLM (open source, но требует развертывания и обучения), Unify (облачный сервис с нейроскорингом).

ClawRouter — ещё один вариант. Это open source проект с MIT-лицензией, который работает локально. Разберёмся, как он устроен.

Как работает ClawRouter

Каждый запрос проходит через 15-мерный скорер. Это не нейросеть, а система правил с весами. Оцениваются:

  • длина промта
  • наличие кода
  • маркеры логического анализа («докажи», «сравни», «проанализируй»)
  • использование инструментов (function calling)
  • агентные команды («запусти», «отредактируй», «протестируй»)
  • язык запроса
  • ещё около 10 параметров

На выходе запрос попадает в один из четырёх уровней: SIMPLE → MEDIUM → COMPLEX → REASONING. Внутри уровня выбирается самая дешёвая подходящая модель.

Весь процесс происходит локально, за миллисекунды, без внешних вызовов. Решение о выборе модели принимается на вашей машине — в сеть уходит только сам запрос.

Доступны четыре профиля роутинга: auto (баланс цены и качества), eco (максимальная экономия, до 95%), premium (только топовые модели), free (только бесплатные — например, gpt-oss-120b от NVIDIA).

Оплата через криптовалюту — плюс или минус?

ClawRouter использует протокол x402: оплата за каждый запрос в USDC (стейблкоин, 1 USDC ≈ 1 USD). Никаких API-ключей, аккаунтов или карт. Создаётся локальный кошелёк, на который нужно положить, например, $5 USDC в сети Base (L2 Ethereum). Этого хватит на тысячи запросов.

Идея удобна для автономных AI-агентов: они не могут привязать карту, но могут управлять кошельком. Для разработчика — барьер. Если вы не знакомы с крипто, придётся потратить 15–20 минут на настройку.

За неделю тестов (около 200 запросов в день) я потратил $1.80. Прямое использование Anthropic API за тот же период обошлось бы в $47.

Преимущества

Серьёзная экономия. Из 1400 запросов за неделю только около 15% пошли в дорогие модели. Остальные — на DeepSeek, Gemini Flash и бесплатный NVIDIA-уровень. Качество ответов, по ощущениям, не упало: на простых задачах дешёвые модели работают не хуже.

Автоматические фоллбеки. Если модель не отвечает (rate limit, ошибка 500), роутер переключается на следующую в цепочке. За неделю дважды DeepSeek зависал — система незаметно переключилась на GPT-4o-mini.

Session pinning. В рамках одного диалога модель не меняется. Начали с Claude Sonnet — весь разговор идёт через неё. Переключение происходит только при старте нового диалога.

Бесплатный режим. При пустом кошельке роутер автоматически переходит на gpt-oss-120b. Система не падает, а продолжает работать, хоть и с пониженным качеством.

Недостатки

Правила вместо ML. Скорер — это набор жёстких правил, а не обученная модель. Это быстро и прозрачно, но на граничных случаях ошибается. Например, короткий запрос «напиши сортировку O(n log n) для связного списка» помечается как SIMPLE, хотя задача нетривиальна. ML-роутеры, вроде RouteLLM или Martian, справились бы точнее.

Крипто-оплата. Для тех, кто не в теме, это серьёзный барьер. Нет альтернативы вроде привязки карты. Добавление традиционной оплаты расширило бы аудиторию в разы.

Молодой проект. Репозиторию несколько месяцев, звёзд немного. Документация есть, но скудная. При ошибках — разбирайся сам или ищи помощь в Telegram-чате.

Нет контроля качества. Роутер выбирает дешёвую модель в нужном тире, но не проверяет, насколько хорошо она ответила. Если ответ плохой — вы увидите это, но система не перезапустит запрос на лучшей модели. В отличие от Martian, который предсказывает качество заранее.

Сравнение с альтернативами

OpenRouter — не роутер в классическом смысле. Это агрегатор: один ключ, 300+ моделей, но выбор за вами. Нет автоматической классификации. Зато прост в настройке: карта, ключ — и вперёд.

RouteLLM — академический open source от создателей Chatbot Arena. Использует обученные ML-модели, научно обоснован. Но требует самостоятельного развёртывания и поддержки. Подходит командам с ML-экспертизой.

Martian — технологически самый продвинутый: предсказывает качество ответа без запуска модели. Но закрытый, enterprise-only, недоступен обычным разработчикам.

ClawRouter — золотая середина между «сделай всё сам» (RouteLLM) и «плати дорого» (Martian). Работает из коробки, open source, но с rule-based логикой и крипто-оплатой.

За неделю тестов расходы упали с $47 до $1.80. Качество, по ощущениям, не пострадало — хотя формального теста я не проводил.

Если вы тратите на LLM API больше, чем планировали, и готовы потратить 20 минут на настройку и разобраться с USDC — стоит попробовать. Если крипто-оплата отталкивает — рассмотрите OpenRouter с ручным выбором моделей или развёртывание RouteLLM.

Читать оригинал