Как я сократил расходы на ИИ на 70% тремя строчками логики

Как я сократил расходы на ИИ на 70% тремя строчками логики

Мой ИИ-агент обходится в $20 в месяц. Три месяца назад та же нагрузка стоила более $200. Причина экономии — не в оптимизации промптов или кэшировании, а в отказе от идеи, что дорогие модели обязательны.

Фаза первая: бесплатный проезд ($0, а потом всё)

Когда я создавал Арью — своего ИИ-агента для соцсетей — я использовал Claude Code через подписку Claude Max. Я и так платил $100 в месяц за этот план, так что запуск агента не добавлял расходов. Он был виртуально бесплатным.

Но потом Anthropic обновили условия использования: подписку нельзя было применять для автоматизированных систем. Их модель рассчитана на живого пользователя, а не на бота, который делает сотни вызовов в день. Арья попала под запрет.

Подписка осталась, но агент больше не мог на ней работать. Пришлось переходить на API — и платить отдельно за каждый токен. Бесплатный агент превратился в дополнительную статью расходов.

Фаза вторая: API и шок от счёта ($200+/месяц)

Я перешёл на плату за токены: Claude Sonnet — $3 за миллион входных токенов, Opus — $5. Казалось, это приемлемо для сайд-проекта. Но быстро стало ясно, что расходы непредсказуемы.

Агент не просто пишет твиты. Он читает ленты, исследует темы, создаёт черновики, редактирует, проверяет факты, форматирует. Одна утренняя сессия могла сжечь 250 000 токенов ещё до начала генерации текста. OpenClaw потребляет токены очень активно.

Первый месяц на API обошёлся в $200. В некоторые дни агент попадал в edge case, запускал длинные цепочки рассуждений и тратил в 10 раз больше обычного. Ошибки и повторы удваивали расход. Затраты росли нелинейно и непредсказуемо.

Для соло-разработчика $200 в месяц — слишком много. Нужны были более дешёвые модели без потери качества.

Фаза третья: охота за моделью

Я искал альтернативы с тремя критериями: умение писать длинные тексты, следовать сложным инструкциям, сохранять стиль и стоить значительно дешевле Claude.

Kimi K2.5 через OpenRouter стал первым кандидатом. Цена — около $0.45 за миллион токенов. Это в 6–10 раз дешевле Claude. Качество оказалось высоким: Kimi справлялся с черновиками, саммари и планами статей. Не дотягивал до Claude в логике, но давал 80% качества за 15% цены.

Агент работал на Kimi несколько недель. Расходы упали до $40–60 в месяц. Лучше, но всё ещё переменные: одни недели — $10, другие — $20.

Затем я нашёл MiniMax M2.5. У них была уникальная опция — подписка. Примерно $20 в месяц за щедрый лимит использования. Никакой потоковой оплаты. Фиксированная плата покрывала всю нагрузку.

Качество удивило. MiniMax M2.5 справлялся со всем: черновики, статьи, ресерч, анализ лент, выполнение инструкций. Для моих задач он был сопоставим с более дорогими моделями.

Текущий сетап: $20/месяц за всё

Сейчас Арья работает на MiniMax M2.5 как основной модели, с Kimi K2.5 в качестве fallback. На практике fallback почти не срабатывает. MiniMax обрабатывает более 95% запросов.

MiniMax выпустили версию 2.7 — с улучшенными рассуждениями и следованием инструкциям. Цена осталась прежней. Агент стал умнее без дополнительных затрат. Это преимущество подписки: обновления — бесплатно.

Полная стоимость в месяц:

  • Подписка MiniMax M2.5
  • Kimi K2.5 fallback (OpenRouter)
  • TwitterAPI.io (сбор ленты)
  • Contabo VPS (сервер)

Это полная стоимость production-агента, который мониторит соцсети, создаёт контент, управляет расписанием блога и ежедневно отчитывается в Telegram. Раньше это стоило $200–400 через Claude API.

Когда подписка не вариант: роутинг моделей

Если нагрузка превышает лимиты подписки, или вы привязаны к enterprise-инфраструктуре, остаётесь в системе оплаты за токены. Тогда помогает роутинг.

Идея проста: не отправляйте все запросы в дорогую модель. Простые задачи — в дешёвые, сложные — в мощные.

Каскадный роутинг: промпт сначала идёт в самую дешёвую модель. Если результат не проходит порог качества, запрос переходит на следующую. FrugalGPT от Стэнфорда показал экономию до 98% при сохранении точности GPT-4. Минус — задержки: сложные задачи требуют нескольких вызовов.

Роутинг на основе классификации: лёгкий классификатор определяет, какая модель нужна. RouteLLM от LMSYS сократил расходы на 85% в тесте MT Bench, сохранив 95% производительности GPT-4. На других бенчмарках — 35–45%, но это всё равно существенно.

Роутинг на основе правил: самый простой способ, особенно для соло-разработчиков. Три правила покрывают большинство случаев:

  • Если промпт короче 500 токенов и требует форматирование или извлечение данных — в самую дешёвую модель
  • Если задача — генерация кода или сложный анализ — во флагманскую модель
  • Всё остальное — в модель среднего уровня

Сейчас я всё отправляю в MiniMax, но правила работают, если вы на токенах.

AWS Bedrock предлагает Intelligent Prompt Routing — управляемый сервис, который автоматически выбирает самую дешёвую модель, соответствующую вашему уровню качества. Тесты показали среднюю экономию 30%, до 63% на RAG-нагрузках. Если вы в экосистеме AWS — это простое решение.

Главный урок: не останавливаться на привычном

Рынок моделей в 2026 году очень разнообразен. Флагманы вроде o1 и Claude Opus стоят $15–25 за миллион токенов. Эффективные модели — GPT-4o-mini, Gemini Flash — $0.15–0.60. А подписочные, как MiniMax, предлагают фиксированную плату, полностью уходя от токеновой экономики.

Большинство разработчиков выбирают одну модель и застревают на ней. Отправляют всё в GPT-4o или Claude Opus, потому что «так надёжно». Это как ездить на спорткаре в магазин, хотя Honda довезёт точно так же.

Мой путь с $200 до $20 — не про сложную инженерию. Он про сомнение в предпосылке: «мне нужна дорогая модель». Не нужна. MiniMax M2.5 справляется с production-нагрузкой за долю стоимости. Разница в качестве для моего случая — незаметна.

Прежде чем строить систему роутинга, задайте простой вопрос: а нужна ли вам дорогая модель? Протестируйте дешёвую на реальной нагрузке. Возможно, 90% задач не требуют frontier-уровня. Оставшиеся 10% можно обрабатывать дорогой моделью по требованию.

Цель — не оптимизировать расходы. Цель — перестать переплачивать за мощности, которые вы не используете.

Читать оригинал