Экономим до 78% на токенах при работе с LLM — и получаем более точные ответы

Экономим до 78% на токенах при работе с LLM — и получаем более точные ответы

Если вы работаете с LLM — ChatGPT, Claude, DeepSeek, Qwen или другими — через API, то знаете: токены стоят денег. Контекстное окно у любой модели ограничено, и чем больше кода вы отправляете, тем дороже каждый запрос. Новые модели с большими контекстными окнами появляются регулярно, но зачем платить за то, что можно не отправлять?

Существует прокси-сервис TokenCompress.com, который сжимает код перед отправкой в LLM. В среднем он убирает около 78% токенов, при этом качество ответов не падает — а иногда даже улучшается. Модель получает только релевантный контекст, без шума.

Как это работает

TokenCompress — это не просто удаление комментариев или минификация. В основе — двухэтапный пайплайн.

Этап 1 (первоначальная фильтрация): Код разбирается с помощью Tree-Sitter AST-парсера на структурные блоки — функции, классы, методы. Каждый блок оценивается по степени релевантности вашему вопросу. Нерелевантные фрагменты отсекаются.

Этап 2 (дополнительная фильтрация): Внутри оставшихся блоков проводится построчная оптимизация по принципу задачи о рюкзаке. Удаляются избыточные строки — шаблонный код, неиспользуемые импорты, тестовые фикстуры. При этом логика и сигнатуры функций сохраняются.

Сжатие — контекстно-зависимое. Один и тот же файл сжимается по-разному в зависимости от вашего вопроса. Например, если вы спрашиваете о функции post_groups, в контексте останутся только она и её зависимости. Сжатие применяется, если код обернут в тройные кавычки (```) и превышает 500 токенов.

Поддержка языков

Сервис поддерживает 24 языка: Python, Rust, JavaScript, TypeScript, Go, Java, C#, C++, C, PHP, Kotlin, Dart, Swift, Scala, Ruby, Haskell, Erlang, Julia, Bash, HTML, CSS, Markdown, SQL, JSON. Для неподдерживаемых языков используется построчное разбиение.

Подключение за 3 шага

Шаг 1. Регистрация

Перейдите на tokencompress.com и войдите через GitHub, Google или Apple.

Шаг 2. Создание API-ключа

В админке перейдите в раздел API-ключей и создайте новый. Сохраните его — повторно ключ не отобразится.

Шаг 3. Компоновка ключей

Объедините два ключа — от TokenCompress и от вашего LLM-провайдера — через двойное двоеточие (::).

Замените base_url на один из адресов TokenCompress, указав провайдера:

https://tokencompress.com/v1/openai

https://tokencompress.com/v1/anthropic

https://tokencompress.com/v1/deepseek

https://tokencompress.com/v1/google

https://tokencompress.com/v1/mistral

https://tokencompress.com/v1/qwen

https://tokencompress.com/v1/ollama

https://tokencompress.com/v1/ollama-cloud

https://tokencompress.com/v1/openrouter

https://tokencompress.com/v1/kilo

После этого ваш код автоматически проходит сжатие и отправляется в LLM. Ответ приходит в обычном формате, включая streaming.

Тест на реальном примере

Возьмём файл organizations.rs из open-source проекта Vaultwarden — объёмный файл на Rust. При отправке запроса напрямую и через TokenCompress можно сравнить статистику по токенам.

Результат: токены сократились почти на 70%. Модель получила только релевантные фрагменты и дала корректный, более точный и краткий ответ.

На 19 тестовых запросах суммарная экономия составила более 70 000 токенов.

Тесты проводились на 600 open-source файлах на 22 языках. Результаты:

Исходных токенов (суммарно): 1 240 000

После сжатия: 220 000

Экономия токенов: ~82%

Средняя задержка на файл: 0.8 с

Максимальная задержка: 2.1 с

Деградация качества ответов: не обнаружена

Распределение степени сжатия: от 60% (p10) до 97% (p90), медиана — 82%.

Почему точность ответов может расти

Когда вы отправляете в LLM большой файл целиком, модель «пробирается» через тысячи нерелевантных строк. Это создаёт шум и может привести к потере фокуса — особенно в середине контекста (так называемая проблема «lost in the middle»).

TokenCompress отправляет только те фрагменты, которые нужны для ответа. Меньше шума — точнее результат.

Сколько можно сэкономить?

При консервативной оценке в 60% сжатия (на практике — выше):

При объёме ~25 000 запросов в месяц:

Claude Opus — экономия input-токенов: 75%

DeepSeek V3 — экономия input-токенов: 68%

Стоимость подписки: от $5/мес

Чистая выгода: значительная, даже на самых дешёвых моделях подписка окупается быстро.

Доступны тарифы:

  • Бесплатный 3-дневный пробный период Pro-плана (1 500 запросов) без привязки карты
  • 125 000 запросов в месяц — на Pro-тарифе
  • Enterprise — с возможностью self-hosted развертывания

Безопасность

Да, при использовании облачной версии код проходит через серверы TokenCompress. Однако:

  • Код обрабатывается только в памяти и не сохраняется на диск
  • Содержимое запросов не логируется
  • Обработка — per-request, без кэширования кода
  • В LLM-провайдер отправляется только сжатый фрагмент

Для повышенных требований доступен Enterprise-план с возможностью локального развертывания (self-hosted). Поддерживается интеграция с LM Studio, Ollama и vLLM. В этом случае код не покидает вашу инфраструктуру.

Интеграция с Continue (VS Code)

Пример конфигурации для Continue доступен в документации. Сервис также работает с LangChain, LangGraph, OpenClaw, Codex, Claude Code, Continue и любым инструментом, поддерживающим OpenAI-совместимый API.

  • Экономия 60–80% токенов на каждом запросе к LLM
  • AST-парсинг + ML-ранжирование — не минификация, а интеллектуальное сжатие с учётом вопроса
  • 24 языка, streaming, поддержка всех основных провайдеров
  • Подключение за 5 минут — меняете base_url и компонуете ключи
  • От $5/мес — окупается за один рабочий день
Читать оригинал