Если вы работаете с LLM — ChatGPT, Claude, DeepSeek, Qwen или другими — через API, то знаете: токены стоят денег. Контекстное окно у любой модели ограничено, и чем больше кода вы отправляете, тем дороже каждый запрос. Новые модели с большими контекстными окнами появляются регулярно, но зачем платить за то, что можно не отправлять?
Существует прокси-сервис TokenCompress.com, который сжимает код перед отправкой в LLM. В среднем он убирает около 78% токенов, при этом качество ответов не падает — а иногда даже улучшается. Модель получает только релевантный контекст, без шума.
Как это работает
TokenCompress — это не просто удаление комментариев или минификация. В основе — двухэтапный пайплайн.
Этап 1 (первоначальная фильтрация): Код разбирается с помощью Tree-Sitter AST-парсера на структурные блоки — функции, классы, методы. Каждый блок оценивается по степени релевантности вашему вопросу. Нерелевантные фрагменты отсекаются.
Этап 2 (дополнительная фильтрация): Внутри оставшихся блоков проводится построчная оптимизация по принципу задачи о рюкзаке. Удаляются избыточные строки — шаблонный код, неиспользуемые импорты, тестовые фикстуры. При этом логика и сигнатуры функций сохраняются.
Сжатие — контекстно-зависимое. Один и тот же файл сжимается по-разному в зависимости от вашего вопроса. Например, если вы спрашиваете о функции post_groups, в контексте останутся только она и её зависимости. Сжатие применяется, если код обернут в тройные кавычки (```) и превышает 500 токенов.
Поддержка языков
Сервис поддерживает 24 языка: Python, Rust, JavaScript, TypeScript, Go, Java, C#, C++, C, PHP, Kotlin, Dart, Swift, Scala, Ruby, Haskell, Erlang, Julia, Bash, HTML, CSS, Markdown, SQL, JSON. Для неподдерживаемых языков используется построчное разбиение.
Подключение за 3 шага
Шаг 1. Регистрация
Перейдите на tokencompress.com и войдите через GitHub, Google или Apple.
Шаг 2. Создание API-ключа
В админке перейдите в раздел API-ключей и создайте новый. Сохраните его — повторно ключ не отобразится.
Шаг 3. Компоновка ключей
Объедините два ключа — от TokenCompress и от вашего LLM-провайдера — через двойное двоеточие (::).
Замените base_url на один из адресов TokenCompress, указав провайдера:
https://tokencompress.com/v1/openai
https://tokencompress.com/v1/anthropic
https://tokencompress.com/v1/deepseek
https://tokencompress.com/v1/google
https://tokencompress.com/v1/mistral
https://tokencompress.com/v1/qwen
https://tokencompress.com/v1/ollama
https://tokencompress.com/v1/ollama-cloud
https://tokencompress.com/v1/openrouter
https://tokencompress.com/v1/kilo
После этого ваш код автоматически проходит сжатие и отправляется в LLM. Ответ приходит в обычном формате, включая streaming.
Тест на реальном примере
Возьмём файл organizations.rs из open-source проекта Vaultwarden — объёмный файл на Rust. При отправке запроса напрямую и через TokenCompress можно сравнить статистику по токенам.
Результат: токены сократились почти на 70%. Модель получила только релевантные фрагменты и дала корректный, более точный и краткий ответ.
На 19 тестовых запросах суммарная экономия составила более 70 000 токенов.
Тесты проводились на 600 open-source файлах на 22 языках. Результаты:
Исходных токенов (суммарно): 1 240 000
После сжатия: 220 000
Экономия токенов: ~82%
Средняя задержка на файл: 0.8 с
Максимальная задержка: 2.1 с
Деградация качества ответов: не обнаружена
Распределение степени сжатия: от 60% (p10) до 97% (p90), медиана — 82%.
Почему точность ответов может расти
Когда вы отправляете в LLM большой файл целиком, модель «пробирается» через тысячи нерелевантных строк. Это создаёт шум и может привести к потере фокуса — особенно в середине контекста (так называемая проблема «lost in the middle»).
TokenCompress отправляет только те фрагменты, которые нужны для ответа. Меньше шума — точнее результат.
Сколько можно сэкономить?
При консервативной оценке в 60% сжатия (на практике — выше):
При объёме ~25 000 запросов в месяц:
Claude Opus — экономия input-токенов: 75%
DeepSeek V3 — экономия input-токенов: 68%
Стоимость подписки: от $5/мес
Чистая выгода: значительная, даже на самых дешёвых моделях подписка окупается быстро.
Доступны тарифы:
- Бесплатный 3-дневный пробный период Pro-плана (1 500 запросов) без привязки карты
- 125 000 запросов в месяц — на Pro-тарифе
- Enterprise — с возможностью self-hosted развертывания
Безопасность
Да, при использовании облачной версии код проходит через серверы TokenCompress. Однако:
- Код обрабатывается только в памяти и не сохраняется на диск
- Содержимое запросов не логируется
- Обработка — per-request, без кэширования кода
- В LLM-провайдер отправляется только сжатый фрагмент
Для повышенных требований доступен Enterprise-план с возможностью локального развертывания (self-hosted). Поддерживается интеграция с LM Studio, Ollama и vLLM. В этом случае код не покидает вашу инфраструктуру.
Интеграция с Continue (VS Code)
Пример конфигурации для Continue доступен в документации. Сервис также работает с LangChain, LangGraph, OpenClaw, Codex, Claude Code, Continue и любым инструментом, поддерживающим OpenAI-совместимый API.
- Экономия 60–80% токенов на каждом запросе к LLM
- AST-парсинг + ML-ранжирование — не минификация, а интеллектуальное сжатие с учётом вопроса
- 24 языка, streaming, поддержка всех основных провайдеров
- Подключение за 5 минут — меняете base_url и компонуете ключи
- От $5/мес — окупается за один рабочий день