Иногда в одном обсуждении встречаются люди с разным уровнем погружения в нейросети. Они начинают сравнивать опыт, и тут всплывает проблема: фраза вроде «Я использую GPT для своих задач, и он лучше справляется, чем Qwen» буквально ни о чём не говорит, пока мы не уточним контекст. Более того — она легко вводит собеседника в заблуждение.
Два человека, использующие одну и ту же модель, могут получать кардинально разные результаты. Причина — в условиях, в которых модель используется. В этой статье объясняется, почему так происходит, и как обсуждать ИИ-агентов так, чтобы разговор был предметным.
Почему фраза «я использую GPT» ничего не значит
Потому что на результат влияют как минимум четыре слоя:
- Какая именно модель (семейство, версия, конкретный вариант).
- Режим размышления (обычный ответ или reasoning-режим, а также количество токенов, потраченных на рассуждения).
- Инструменты, доступные модели (веб-поиск, анализ файлов, интерпретатор кода, агентные функции).
- Клиент или продукт, через который вы общаетесь с моделью (chatgpt.com, API, Cursor, плагин в IDE, корпоративный портал и т.д.) — он добавляет системные инструкции, ограничения и «обвязку».
Вы → (клиент/продукт + его системные инструкции + лимиты) → (модель + режим) → (инструменты, если доступны) → ответ
Поэтому корректное сравнение начинается с нормализации описания: что именно и в каких условиях вы запускали.
Версия модели
При сравнении важно указывать точную версию модели. Скачки качества между поколениями могут быть огромными. Опыт с GPT-3.5 и современной моделью — это разные миры.
Но даже у одной версии, например GPT-5.2, могут быть разные режимы: gpt-5.2-instant, gpt-5.2-thinking, gpt-5.2-pro. У пользователей без платной подписки часто нет осознанного выбора между ними.
Режим instant работает быстрее, но даёт менее качественные ответы. Режим thinking тратит больше времени и токенов на внутренние рассуждения. Бесплатные пользователи получают его реже и с жёсткими лимитами. Плюс у них обычно меньше контекстное окно — это тоже снижает качество.
Модели с рассуждением: первый большой фактор качества
Reasoning-модели «думают перед ответом»: они тратят дополнительные токены на внутренние цепочки рассуждений, лучше справляются с логикой, планированием и многошаговыми задачами.
OpenAI описывает такие модели как обученные «думать перед тем, как отвечать» — это внутренний chain-of-thought. Качество растёт примерно как у человека, который подумал, против того, кто ляпнул первое, что пришло в голову.
Примеры у других вендоров: Claude Sonnet/Opus, Gemini Pro, Deepseek с режимом DeepThink.
Reasoning стоит денег, потому что тратит много токенов. Чем глубже модель «думает», тем больше вычислений. Поэтому вендоры ограничивают reasoning в бесплатных тарифах — и качество падает.
Поиск в интернете: второй большой фактор качества
LLM обучаются на устаревших данных и склонны к галлюцинациям. Веб-поиск решает обе проблемы:
- даёт доступ к актуальной информации;
- снижает риск выдумок — модель опирается на реальные источники.
На chatgpt.com поиск часто включается автоматически. В других продуктах — вручную или не включается вовсе. Если его нет, качество ответов может быть намного хуже.
ChatGPT через сторонние сервисы
chatgpt.com — это официальный продукт с определёнными режимами и инструментами. Многие используют сторонние интерфейсы, которые работают через API. В этом случае условия задаёт не OpenAI, а посредник.
Через API можно ограничить контекст, длину ответа и глубину рассуждений. Поскольку reasoning и длинные ответы стоят дороже, посредники часто их урезают, чтобы сэкономить.
Веб-поиск в API — отдельная опция с дополнительной стоимостью. Его могут не включать или включать редко. Отсюда эффект: «ChatGPT умнее на chatgpt.com, чем в сервисе X» — потому что там чаще доступны reasoning и веб-поиск.
Продукт — важная надстройка над LLM
Даже при одинаковой модели поведение может отличаться в зависимости от продукта. У каждого интерфейса своя «обвязка»: системные инструкции, форматирование, правила и набор инструментов.
Например, chatgpt.com оптимизирован под диалог: модель ведёт беседу, уточняет контекст, сохраняет тон. А codex-cli — это инструмент для терминала, заточенный под работу с кодом. Если «поболтать» в codex-cli, модель будет вести себя более технично и менее разговорно.
Правильный продукт может дать лучший результат, чем более «умная» модель в худшем интерфейсе. Связка правильный инструмент + сильная модель (например, Claude Code с Opus или codex-cli с gpt-5.3-codex) может превзойти Cursor или GitHub Copilot даже при одинаковых LLM.
Локальные и корпоративные развёртывания: квантование и дистилляция
Когда модель запускают локально или в компании, её часто сжимают для работы на слабом оборудовании. Два основных способа — квантование и дистилляция.
Квантование — хранение весов модели с меньшей точностью (например, FP8 вместо FP16). Это уменьшает требования к памяти, но теряются тонкие детали. Качество падает на сложных задачах, особенно в логике и длинном контексте.
Дистилляция — обучение маленькой модели («ученика») копировать поведение большой («учителя»). Получается более лёгкая, но уже другая модель. Качество может отличаться.
Например, Qwen3-Coder и Qwen3-Coder-30B-A3B-Instruct-FP8 — это разные модели. FP8-версия — квантованная, и её поведение может отличаться от «полной» версии, указанной в бенчмарках.
Итог: как правильно сравнивать
Фраза «я использую GPT» не даёт оснований для сравнения. На результат влияют:
- точная модель и её версия;
- режим рассуждений и его лимиты;
- наличие инструментов, особенно веб-поиска;
- продукт, через который вы с ней взаимодействуете.
Для предметного разговора всегда уточняйте: какую именно модель, в каком режиме, с какими инструментами и в каком клиенте вы использовали.
OpenAI усложняет понимание ещё и номенклатурой. Например, «Codex» — это может быть:
- Codex CLI — консольный агент для кода;
- Codex app — приложение для Mac OS;
- Codex web / cloud — веб-интерфейс вокруг облачного агента;
- GPT-5-Codex / gpt-5.3-codex — сама модель, заточенная под программирование.