Сравнение Claude, Gemini и ChatGPT в работе с текстом, математикой, анализом и креативностью

Сравнение Claude, Gemini и ChatGPT в работе с текстом, математикой, анализом и креативностью

Давно не было громких обновлений среди топовых LLM. По сравнению с февралём, когда каждая неделя приносила что-то новое, сейчас всё спокойнее.

Цель сравнения

В этот раз я решил отойти от стандартных задач вроде «напиши рассказ» или «реши уравнение». Вместо этого — нестандартные задания, которые проверяют модели глубже.

В тесте участвуют: ChatGPT-5.4, Claude Opus 4.6 и Gemini 3.1 Pro. Это субъективное сравнение, сделанное ради личного интереса. Тем, кто любит такие эксперименты, — добро пожаловать.

Участники теста

ChatGPT 5.4

Модель от OpenAI демонстрирует сильные результаты в бенчмарках. Улучшена работа с интернет-поиском и объединёнными запросами из нескольких источников.

Контекстное окно — до 1 миллиона токенов. Также добавлен агентный режим: модель может анализировать скриншоты, управлять браузером, использовать API и инструменты через специальное ПО.

Claude Opus 4.6

Anthropic сделала ставку на промышленное применение. Главное нововведение — внутреннее планирование. Модель не просто генерирует текст, а строит карту рассуждений и проверяет каждый этап.

Контекстное окно — 1,5 миллиона токенов. Это позволяет загружать в память почти всю кодовую базу небольшого проекта, что особенно полезно в разработке ПО.

Gemini 3.1 Pro

Google называет эту модель своей самой «интеллектуальной» для сложных задач. Основное улучшение — встроенная технология глубокого мышления.

Теперь модель способна одновременно прокладывать несколько путей решения и выбирать лучший. Контекст — 1 миллион токенов на входе, до 64 тысяч — на выходе.

Оптимизирована для программирования и агентных рабочих процессов, где нужно выполнять цепочки задач.

Условия сравнения

Каждая задача оценивается по шкале от 0 до 3:

  • 3 — задача решена полностью.
  • 0 — не решена.
  • 1–2 — частичное или некачественное выполнение.

Дополнительно можно получить 1 балл за нестандартный или особенно удачный подход.

Итоги подводятся в таблице с учётом баллов и стоимости запросов.

Задание 1: распознавание текста со скана тетради

ChatGPT 5.4

Справился полностью. Ошибка в зачёркнутом фрагменте — не критична. Получает 3 балла.

Стоимость запроса — 8,9 рубля.

Claude Opus 4.6

Допустил 4 ошибки: искажения текста и вставки «из воздуха». Результат неожиданно слабый. Получает 1 балл.

Стоимость — 6 рублей.

Gemini 3.1 Pro

Неточности в переносе предложений и замена слов, но смысл не искажён. Ошибки есть, но незначительные. Получает 2 балла.

Стоимость — 14 рублей (самый дорогой в этом задании).

Задание 2: олимпиадные задачи по высшей математике

Все три модели верно решили 10 задач, но пропустили ограничения на переменные в последнем задании. Это снижает оценку на 0,5 балла.

Каждая получает по 2,5 балла.

  • ChatGPT: 17 рублей.
  • Claude: 41 рубль.
  • Gemini: 27 рублей.

Задание 3: поиск реальных кейсов применения ИИ в науке (после 31 августа 2025 года)

ChatGPT 5.4

Нашёл около трёх подтверждённых кейсов. Остальные — теоретические или непроверенные. Получает 1,5 балла.

Стоимость — 66 рублей.

Claude Opus 4.6

Нашёл четыре реальных кейса. Один из них — создание новой модели ИИ, что, по моему мнению, не является кейсом применения. Получает 1 балл.

Стоимость — 203 рубля.

Gemini 3.1 Pro

Аналогично — около четырёх условно полезных кейсов. Получает 1,5 балла.

Стоимость — 89 рублей.

Задание 4: креативность

Задача — придумать интригующий сюжет для короткометражки про робота, который боится электричества, и описать его для генерации изображения.

Все три модели предложили сильные, креативные и атмосферные варианты. Каждая получает по 3 балла.

  • ChatGPT: 9 рублей.
  • Claude: 11 рублей.
  • Gemini: 12 рублей.

Итоговая таблица

ChatGPT 5.4: 3 + 2,5 + 1,5 + 3 = 10 баллов (100,9 рубля)

Claude Opus 4.6: 1 + 2,5 + 1 + 3 = 7,5 баллов (261 рубль)

Gemini 3.1 Pro: 2 + 2,5 + 1,5 + 3 = 9 баллов (142 рубля)

Вывод

Лидером стал ChatGPT 5.4. Он показал лучший баланс качества, стабильности и стоимости.

Раньше я отдавал предпочтение Gemini, но сейчас вижу, что ChatGPT стал более надёжным и универсальным инструментом.

Напоминаю: это субъективное сравнение, основанное на личных критериях. Ваши результаты могут отличаться.

Читать оригинал