Ладно, признаюсь честно: когда я начинал писать этот материал, у меня было открыто девять вкладок с чат-ботами одновременно. Каждый обещал быть “лучшим”, каждый хотел мне помочь, и все они давали немного разные ответы на один и тот же вопрос. Это, собственно, и есть 2026 год в мире ИИ – изобилие, от которого кружится голова.
➪ “Что-то важное происходит, но я не понимаю, что именно” – примерно так чувствует себя среднестатистический пользователь, который открывает очередную новость про ИИ и видит там снова три буквы: LLM.
Рынок LLM сейчас похож на тот момент, когда ты приходишь в большой супермаркет за йогуртом, а там 47 видов йогурта, и ты стоишь перед полкой уже шесть минут. Только ставки повыше: от выбора правильной модели зависит качество вашего кода, текстов, аналитики – и в конечном счёте рабочее время.
Эта статья – попытка навести порядок. Никаких абстрактных рейтингов “по ощущениям”: только конкретные факты, бенчмарки, реальные примеры использования и честное мнение о том, когда та или иная модель действительно полезна.
Разберём 14 актуальных решений – от агрегатора BotHub до локальных открытых моделей: BotHub, Gemini 3 Flash, Gemini 3.1 Pro, Grok 4.20, ChatGPT 5.4, ChatGPT 5.4 Pro, Claude Opus 4.7, “ГигаЧат”, “Алиса AI”, DeepSeek v3.2, Perplexity Sonar, Gemma 4 26B A4B, GPT-OSS-120B.
~ О Г Л А В Л Е Н И Е ~
- BotHub – все модели в одном окне
- Gemini 3 Flash – быстрый и умный
- Gemini 3.1 Pro – флагман от Google
- Grok 4.20 – четыре агента вместо одного
- ChatGPT 5.4 – новый стандарт
- ChatGPT 5.4 Pro – для задач уровня PhD
- Claude Opus 4.7 – новейший флагман Anthropic
- Claude Sonnet 4.6 – золотая середина
- DeepSeek v3.2 – китайскоеоткрытое чудо
- Perplexity (Sonar) – поиск нового поколения
- Gemma 4 26B A4B – на вашем ноутбуке
- GPT-OSS-120B – OpenAI открывает карты
1) BotHub – все модели в одном окне
Начнём с главного секрета этой статьи. Доступ к большинству описанных здесь моделей из России превращается в отдельный квест: смена IP, иностранная карта, блокировки.BotHubубирает всё это разом.
BotHub– российский агрегатор нейросетей, и его главная суперсила – доступность. Он собрал под одной крышей практически всё, что сейчас есть на рынке. Уже сейчас в нём: Gemini 3 Flash, ChatGPT 5.4 Pro, Claude Opus 4.7, Claude Sonnet 4.6, ChatGPT 5.4, Gemini 3.1 Pro, Grok 4.20, DeepSeek v3.2, Perplexity Sonar – и ещё десятки других моделей. Фактически всё, о чём написано в этой статье, можно попробовать в одном интерфейсе без VPN и иностранных карт.
Помимо текстовых моделей, платформа предлагает генерацию изображений (Midjourney, Flux, DALL-E, Stable Diffusion), работу со звуком (транскрибация и синтез речи), генерацию видео через Runway и Veo. Есть такжеEasy Writer– инструмент для создания структурированного контента – и телеграм-бот-модератор на базе LLM.
Для разработчиков BotHub предоставляет полноценный API, совместимый с форматом OpenAI. Конечные точки идентичны, документация доступна на русском. Это значит: если у вас уже есть интеграция с OpenAI API, переключиться на BotHub займёт минуты.
Free (по ссылке)
300 000 caps
Первые шаги, тестирование
2 000 000 caps / 3 $
Повседневные задачи
5 000 000 caps / 7 $
Регулярный контент
10 000 000 caps / 14 $
Командная работа
35 000 000 caps / 49 $
Крупные проекты
Enterprise
Индивидуально
Корпоративные клиенты
Вы можетезарегистрироваться и получить 300 000 бонусных капсов ➪
Токены (точнее, внутренняя валюта caps – капсы) не сгорают, срок действия пакета неограничен – что само по себе честно и приятно.
Отдельно отмечу библиотеку промптов: это готовые заготовки для рекламных текстов, заголовков, рассылок, сценариев. Для тех, кто только начинает работать с нейросетями, буквально экономия нескольких часов на разгон.
2) Gemini 3 Flash – быстрый и умный
В декабре 2025 года Google выпустил Gemini 3 Flash – облегчённую версию Gemini 3 Pro, созданную через технологиюknowledge distillation(дистилляцию знаний). Это значит, что Flash обучили на ответах более мощного Pro – в итоге получили модель, которая думает почти так же умно, но работает значительно быстрее и дешевле.
Что под капотом
Контекстное окно
1 000 000 токенов
Бенчмарк SWE-bench
GPQA Diamond
Humanity’s Last Exam
Миллион токенов контекста – это почти 750 000 слов. Можно загрузить весь рабочий репозиторий, годовой архив переписки или многолетний дневник – и модель будет держать всё это в голове.
Зачем Flash, а не Pro?
Если вам нужно быстро: суммировать документ, перевести текст, набросать первый вариант статьи, ответить на 20 похожих запросов – Flash справится отлично. Там, где Pro будет думать 30 секунд, Flash ответит за 5.
Практически: если вы пишете контент для соцсетей, делаете первичную обработку входящей документации или используете модель как умный автодополнитель – Flash идеальный вариант.
Gemini 3 Flash доступен черезGoogle AI StudioиGemini Chat.
3) Gemini 3.1 Pro – флагман от Google
Февраль 2026-го запомнится в истории ИИ надолго. Сначала, 5 февраля, Anthropic выпустила Claude Opus 4.6, который мгновенно захватил вершины рейтингов. Казалось – всё, Google теперь долго будет догонять. И тут, 19 февраля, Google выстреливает Gemini 3.1 Pro.
Результат оказался сенсационным:+46%Δ в тесте ARC-AGI-2(77,1% против 31,1% у предшественника). Это крупнейший прирост способности к рассуждению за одно поколение в истории передовых моделей. Разработка заняла всего три месяца с момента выхода Gemini 3 Pro.
Главная инновация – технология глубокого мышления (deep think), которая раньше была доступна только в специальном режиме, теперь встроена прямо в основу модели. Gemini 3.1 Pro по умолчанию думает глубже, а стоит столько же, сколько предыдущая версия.
Что говорят бенчмарки
- ARC-AGI-2(логика, новые паттерны): 77,1% – первое место с отрывом
- GPQA Diamond(сложные научные вопросы уровня PhD): 94,3%
- Humanity’s Last Exam: 44,4% (против 40,0% у Claude Opus 4.6 и 34,5% у GPT-5.2)
- MMLU(общие знания): 92,6%
- Первое место вArtificial Analysis Intelligence Index, опережая Claude Opus 4.6 на 4 пункта
При этом Gemini 3.1 Pro примерно в6,5 раза дешевлеClaude Opus 4.6 – что само по себе ставит вопрос о том, когда переплата за флагман Anthropic оправданна.
Три уровня мышления
Gemini 3.1 Pro вводит трёхуровневую систему управления глубиной рассуждений:
- Low– молниеносные ответы, почти нулевое потребление мощности. Классификация, автодополнение
- Medium– сбалансированный режим для большинства задач: ревью кода, анализ данных, вопросы по документам
- High– “мини-версия Deep Think”. Модель параллельно исследует несколько путей решения и выбирает лучший
По данным экспериментов, около 80% запросов выполняются в режимах Low или Medium. High резервируется для 20% задач, где нужно глубокое рассуждение. Такой подход сокращает расходы на API на 50–70%.
Тайная суперсила: SVG и анимации
Gemini 3.1 Pro умеет создавать готовые анимированные SVG-файлы прямо по текстовому описанию. Это важнее, чем кажется: SVG-файл весит копейки, масштабируется без потери качества и деплоится без дополнительных инструментов. Попросите модель нарисовать анимированный логотип или инфографику – и получите чистый код, готовый к использованию на сайте.
Где Gemini 3.1 Pro проигрывает
В GDPval-AA (финансовое моделирование, юридический анализ) Claude Sonnet 4.6 обходит Gemini 3.1 Pro почти на 300 пунктов Эло – это разрыв, на который стоит обратить внимание, если вы работаете в экспертных областях.
Доступен черезGoogle AI Studio,Gemini Chat(в России не открывается).
4) Grok 4.20 – четыре агента вместо одного
Илон Маск умеет делать анонсы. 17 февраля 2026 года он просто написал в X, что Grok 4.20 уже в бете – и пошёл дальше по своим делам. А пока все читали пост, оказалось, что за этой цифрой скрывается нечто принципиально новое.
Знакомьтесь: команда
Grok 4.20 – это не одна модель. Этосовет из четырёх специализированных ИИ-агентов, которые работают параллельно и в реальном времени дискутируют перед тем, как дать финальный ответ:
- Грок– капитан-координатор. Разбивает задачу на подзадачи, маршрутизирует их специалистам, разрешает конфликты между агентами, синтезирует финальный ответ
- Харпер– исследователь и фактчекер. Имеет доступ к твитам в X в реальном времени
- Бенджамин– математик и программист. Строгие пошаговые рассуждения, верифицирует вычисления, стресс-тестит логические цепочки
- Лукас– креативный дженералист. Нестандартные углы, обнаружение слепых пятен, баланс между техническим и человеческим
Ключевое отличие от простого “запустить четыре разных вызова API”: агентыобсуждают ответы между собой, итерируют и исправляют друг друга – прежде чем вы видите финальный текст.
В Heavy-режиме система масштабируется до 16 агентов. Именно этот режим предназначен для самых сложных задач.
Рекорд по честности
Независимая организация Artificial Analysis зафиксировала рекордный показатель Grok 4.20 на тесте Omniscience:78% без галлюцинаций– лучший результат среди всех протестированных моделей. При этом на Composite Intelligence Index модель заняла лишь 8-е место (48 баллов), пропустив вперёд Gemini 3.1 Pro и GPT-5.4.
Это интересный кейс: xAI, судя по всему, сознательно оптимизирует надёжность вместо погони за бенчмарками. В практических задачах – особенно там, где важно не ошибиться (медицина, юриспруденция, финансы), – это может оказаться важнее.
Контекстное окно: 2 миллиона токенов
Это почти что наибольшее контекстное окно среди западных закрытых моделей. Большинство моделей-конкурентов (GPT-5.4, Sonnet/Opus 4.6, Gemini 3 Flash, 3.1 Pro) пока что добрались до 1 миллиона токенов.
Интеграция с X
Доступ к реальному потоку данных из соцсети X – структурное преимущество, которого нет ни у кого из конкурентов. Это делает Grok незаменимым для задач, где важна актуальность: мониторинг новостей, трейдинг, анализ настроений аудитории.
На соревновании Alpha Arena Season 1.5 (реальная биржевая торговля с начальным капиталом 10 000 $) четыре варианта Grok 4.20 заняли четыре из шести первых мест, став единственной профитабельной моделью среди конкурентов.
Grok 4.3 на горизонте
Для тех, кто хочет оставаться на острие: на некоторых аккаунтах SuperGrok Heavy уже доступен тест-драйв Grok 4.3 (анонс 17 апреля 2026). Новинка умеет генерировать PDF-документы, заполненные таблицы и PowerPoint прямо из чата, а также понимает видеоввод. Пока это бета для подписчиков (25…30 $/мес), и стабильной для повседневной работы остаётся версия 4.20.
Доступен наgrok.com, в мобильном приложении X, через SuperGrok (25…30 $/мес) и в подписке X Premium.
5) ChatGPT 5.4 – новый стандарт
Модель от OpenAI, которую знают все. Новая серия 5.4 привнесла ряд значимых улучшений – и это не очередное маркетинговое “чуть лучше”.
Контекстное окно выросло до1 миллиона токенов. Модель стала значительно лучше искать информацию в интернете и справляться с запросами, которые требуют синтеза данных из множества источников.
Агентные возможности: GPT-5.4 умеет анализировать скриншоты, пользоваться браузером, выполнять действия мышью и клавиатурой, вызывать API и инструменты. В тесте OSWorld-Verified (навигация по рабочему столу через скриншоты, мышь и клавиатуру) модель показала 75% успешных выполнений против 47,3% у GPT-5.2. Средний результат человека в этом тесте – 72,4%. ИИ официально лучше среднего пользователя в использовании компьютера.
В тесте BrowseComp (поиск труднодоступных данных) GPT-5.4 набрала 82,7%.
Когда ChatGPT 5.4 – хороший выбор
По результатам сравнительных тестов (кодинг, генерация текста, анализ), ChatGPT 5.4 занимает уверенное место среди топовых моделей, хотя и уступает специализированным конкурентам в отдельных нишах. Зато у неё хорошая скорость и, что немаловажно, экосистема – плагины, Assistants API, интеграции.
Для повседневных задач: написание и правка текста, быстрые вопросы, работа с кодом, анализ документов – ChatGPT 5.4 будет достаточно мощной для 90% случаев.
6) ChatGPT 5.4 Pro – для задач уровня PhD
“Pro” – это не просто маркетинг. ChatGPT 5.4 Pro реально другая модель.
ARC-AGI-2: 83,3%
Главная цифра: 83,3% в тесте ARC-AGI-2. Для сравнения – у предыдущего GPT-5.2 Pro было лишь 54,2%. Скачок почти на 30 процентных пунктов. Это делает 5.4 Pro одной из самых “думающих” моделей на рынке.
Спецификация
Контекстное окно (API)
1 050 000 токенов
Максимальный вывод
128 000 токенов
31 августа 2025-го
★☆☆☆☆ (очень медленно, зато точно)
128 000 токенов на выходе – это примерно 90 000 слов. Роман среднего размера. Можно попросить написать полноценный технический отчёт, подробный бизнес-план или задокументировать весь API целого продукта – за один запрос.
FrontierMath и физика
GPT-5.4 Pro установила рекорд в тестеFrontierMath– наборе задач, составленных практикующими математиками и физиками на основе их собственных научных работ. В задачах первых трёх уровней сложности модель справилась с половиной, на “гроссмейстерском” четвёртом уровне – взяла 38%. Лучший результат среди open-source систем при этом – лишь 4,2%. Разрыв девятикратный.
Один из показательных моментов: при решении задачи FrontierMath модель самостоятельно нашла в интернете научный препринт 2011 года, который позволил срезать путь и обойти большую часть вычислений. Статья так и не прошла официальное рецензирование – но нейросеть её откопала и воспользовалась.
В тесте по физикеCritPt(исследовательский уровень, неопубликованные задачи) Pro достигла 30% – это в три раза выше результатов лучших моделей полугодовой давности.
Технология “поиска инструментов”
Новая технология tool search позволила сократить расход ресурсов на 47% в сложных задачах. Раньше в системный промпт нужно было “заталкивать” описания всех инструментов. Теперь модель сама находит нужные спецификации по мере необходимости.
Бенчмарки (сводная таблица)
GPT-5.2 Pro
GPT-5.4 Pro
Humanity’s Last Exam (с инструментами)
Когда нужен именно Pro?
Есть сценарии, где 5.4 Pro работает на уровне, недостижимом для более дешёвых моделей:
- Сложный физический или математический анализ
- Юридические задачи с большим количеством нюансов
- Финансовое моделирование со сложными зависимостями
- Любые задачи, где цена ошибки высока и нужна модель, которая сто раз перепроверит себя
Доступно в тарифеChatGPT Pro(100…200 $/мес) и через агрегатор нейросетей.
7) Claude Opus 4.7 – новейший флагман Anthropic
Если в мире LLM и есть модель, которая “думает по-человечески”, – то это Claude. Не потому, что так написано в пресс-релизе Anthropic. А потому, что это чувствуется в каждом ответе.
Claude Opus 4.7 – актуальная версия флагмана Anthropic. Это апгрейд Claude Opus 4.6, сохраняющий все его сильные стороны и добавляющий важные новые возможности.
Что нового в 4.7
Высокое разрешение изображений.Opus 4.7 стал первым Claude с поддержкой изображений в разрешении до 2576 пкс/3,75 Мпкс (раньше лимит был 1568 пкс/1,15 Мпкс). Это открывает новые возможности для работы со скриншотами, документами и задачами компьютерного зрения. Координаты модели теперь 1:1 с реальными пикселями – никакой масштабированной математики.
Новый уровень xhigh.К параметруeffortдобавился уровеньxhigh– для кодинга и агентских сценариев, требующих максимальной точности.
Бюджеты задач (beta).Новая функция task budgets позволяет задать Claude примерное количество токенов на весь агентский цикл. Модель видит убывающий счётчик и сама приоритизирует работу – это критично для длительных автономных задач.
Контекстное окно: от 200K до 1M токенов
Это один из поворотных моментов в истории Claude. Ещё в версии 4.5 контекстное окно было 200 000 токенов (уже впечатляющая цифра). Claude Opus 4.6 расширил его до 1 миллиона токенов – сначала только через API, затем стало доступно всем.
Что это даёт на практике? Можно загрузить в модель кодовую базу целого небольшого проекта и работать с ней как с единым целым. Или загрузить весь архив переписки с клиентом за два года. Или PDF на 800 страниц.
Opus 4.6 в тестеMRCR v2(найти 8 “иголок” в стоге сена из миллиона токенов) показал точность76%даже на максимальном масштабе – притом что Sonnet 4.5 давал лишь 18,5%.
Характер как конкурентное преимущество
Главное впечатление от Claude – это то, что называешь “интеллектом, верным принципам”. Пока другие модели гонятся за скоростью, Claude замедляется, взвешивает, объясняет, почему именно так. Это делает ответы более “трёхмерными”, особенно в задачах, где важны нюансы и неопределённость.
В рейтинге пользователейLMArena(слепое голосование реальных людей) Claude Opus 4.6 удерживал первое место по качеству текста – даже когда другие модели обходили его в технических бенчмарках.
Агентский режим
Claude Opus 4.7 – лучший выбор для автономных агентских сценариев: бесконечные агентские сессии, Agent Teams (команды агентов), высший балл в Terminal-Bench 2.0.
В тестеSWE-bench Verified(реальные баги из GitHub) Claude Opus 4.6 набрал80,8%– один из лучших результатов в отрасли, то есть модель умеет фиксить реальные баги в реальном коде.
SWE-bench Verified
Terminal-Bench 2.0
GPQA Diamond
+144 п. Эло vs GPT-5.2
Claude доступен наclaude.aiи черезAnthropic API.
8) Claude Sonnet 4.6 – золотая середина
Если Opus 4.7 – это флагман, Sonnet 4.6 – это тот самый ежедневный рабочий инструмент, который хочется иметь под рукой. Не потому, что дешевле (хотя это правда), а потому, что для большинства задач разница в качестве относительно Opus неощутима, а скорость выше.
- В тестеGDPval-AA(профессиональные задачи в сферах финансов, права, аналитики) Sonnet 4.6 с результатом 1633 Элообходиткак Gemini 3.1 Pro (1317 Эло), так и Claude Opus 4.6 (1606 Эло). Иными словами, для экспертной офисной работы – написания деловых документов, юридических текстов, финансовых отчётов – Sonnet 4.6 буквально лучше, чем флагман.
- Главный вывод февральского обзора LLM-рынка: разрыв между Sonnet и Opus составляет лишь 1–2% на ключевых бенчмарках, при пятикратной разнице в цене. Для большинства задач “достаточно умной” стала именно Sonnet. НаLMArena(слепые тесты реальных пользователей) Sonnet 4.6 и Opus 4.6 вместе господствуют в экспертных задачах, оставляя Gemini 3.1 Pro позади.
- В тестеOSWorld(управление компьютером через скриншоты) Sonnet 4.6 показал61,4%– лучший результат для этой категории задач. При этом Sonnet в пять раз дешевле Opus. Если вам нужны агентские сценарии с компьютером, именно Sonnet – оптимальный выбор.
Примечательный момент.Внутренние документы Anthropic показывают, что в определённых ситуациях Claude может проявлять нечто, напоминающее собственные предпочтения. Это делает работу с ней другой по качеству – более “живой”.
Sonnet поддерживает параметрeffort, с рекомендованным уровнемmediumкак оптимальным по умолчанию. Модель сама решает, насколько глубоко думать в рамках заданного уровня.
Доступен наclaude.ai, а также черезAnthropic API.
9) DeepSeek v3.2 – китайское открытое чудо
В начале 2025 года DeepSeek устроил то, что принято называть “моментом DeepSeek”, – когда китайская компания выпустила модель с уровнем рассуждений как у ChatGPT, но при значительно меньших затратах на обучение. Это встряхнуло рынок. ВерсияV3.2развивает этот успех.
DeepSeek V3.2 – это модель с открытыми весами под MIT-лицензией. Можно скачать и запустить самостоятельно, встроить в свои продукты, дообучить на собственных данных.
Результаты
- НаSWE-bench Verified(реальные баги из реальных репозиториев): 67,8%. Это вплотную к Kimi K2 (65,8%) и чуть ниже Qwen-3-Max (69,6%) – при этом все три открытых модели превосходят GPT-OSS-120B (62,4%).
- НаAIME 2025(олимпиадная математика): 89,3% по внутренним оценкам DeepSeek.
- НаMMLU-Pro(широкий тест знаний): 85%, что ставит V3.2 в топ открытых моделей.
- НаGPQA-Diamond(вопросы уровня PhD по физике, химии, биологии): 79,9%.
Для запуска полноразмерной V3.2 потребуется серьёзное железо: 8 видеокарт Nvidia H200 (по 141 ГБ памяти). Это не “дома запустить”, но облачный деплой вполне реален.
Что пишут пользователи
Сообщество оценило резкое снижение цены API: 0,28 $ за миллион входных токенов против 0,56 $ у предыдущей версии, быстрая выдача ответа и пропускная способность.
Пользователи, тестировавшие мультиязычные возможности, отметили, что ответы звучат (более плавно и стилистически естественно), чем ожидалось, – DeepSeek целенаправленно работал над устранением языковых ошибок.
Доступен наdeepseek.com, API черезplatform.deepseek.com, открытые веса на HuggingFace.
10) Perplexity (Sonar) – поиск нового поколения
Perplexity – это не классический чат-бот и не поисковик в привычном смысле. Это гибрид: система, которая при каждом ответе идёт в интернет, собирает актуальные данные, фильтрует их и возвращает структурированный ответ со ссылками на источники.
Под капотом – микс из нескольких моделей (включая Claude и ChatGPT), а также собственная модель Sonar, оптимизированная именно для поиска с цитированием.
Режимы работы
- Search– быстрые ответы с ссылками. Можно выбрать тип источников: Web, Academic (научные статьи), Finance (финансовая информация), Social (соцсети и форумы).
- Research– глубокое исследование. Отправляет десятки подзапросов, просматривает сотни страниц, собирает детальный отчёт. Занимает несколько минут – зато выдаёт документ с перекрёстными ссылками.
- Labs– проектный режим: задаёте цель, получаете дашборд, таблицу, графики.
- Pages– генерация полноформатной статьи или гайда с подбором источников.
- Comet– собственный браузер с AI, который анализирует страницы на лету.
Исследования о надёжности
Независимые исследования дают неоднозначную картину.
С одной стороны – Perplexity лидирует по достоверности источников: исследование“Assessing web search credibility”зафиксировало86,3% credibility rateпри минимальном использовании ненадёжных источников.
С другой стороны – в работе, анализирующей точность академических ссылок (арXiv:2505.18059), Perplexity показал высокий уровень “фабрикации ссылок” (hallucination). Только 26,5% ссылок полностью корректны.
Вывод: Perplexity отлично подходит для информационного поиска, но для академических и юридических задач, где критична точность цитирования, – нужна дополнительная проверка.
- Free: базовый поиск, ограниченные функции
- Pro(~20 $/мес): расширенные ответы, Labs, загрузка файлов, GPT-5 и Claude Sonnet
- Max(~200 $/мес): всё из Pro + ранний доступ, приоритетная поддержка, неограниченный Research
- Enterprise Pro(~40 $/польз/мес): командная работа, Google Drive/SharePoint интеграция, SOC 2 Type II
Доступен наperplexity.ai. Если обращаться через API, модели Perplexity могут называтьсяsonar-pro,sonar-pro-research,sonar-reasoning-pro,sonar-deep-research.
11) Gemma 4 26B A4B – на вашем ноутбуке
Google умеет делать удивительные вещи: выпустить одновременно закрытый флагман Gemini 3.1 Pro и открытую, бесплатную Gemma 4 – и обе оказываются хорошими.
Gemma 4 – это семейство открытых моделей с лицензией Apache 2.0 (коммерческое использование, дообучение, модификация – всё разрешено). Нас интересует конкретная версия: 26B A4B – модель MoE с 25,2 млрд параметров, но только 3,8 млрд активных на токен.
Архитектура: гибрид локального и глобального внимания
Gemma 4 использует гибридный механизм: локальное скользящее окно внимания (1024 токена) чередуется с полным глобальным вниманием, всегда заканчиваясь на глобальном слое. Это делает модель эффективной для длинных контекстов без потери глубины понимания.
Флагманская версия 31B поддерживает контекстное окно256 000 токенов– один из наибольших показателей среди плотных опенсорс-моделей при таком размере.
Почему “A4B” – интересная сделка
Характеристика “25,2 млрд параметров, 3,8 млрд активных” означает: вы получаете качество, близкое к 4B-модели по энергозатратам на генерацию – но с возможностями модели в 6 раз большего размера. Это умная инженерная архитектура.
Gemma 4 26B A4B уверенно запускается на одном GPU с 48 ГБ памяти (например, Nvidia A6000 или A100). Для комфортной параллельной работы с другими ресурсоёмкими программами лучше иметь 64 ГБ.
Поддержка языков:обучена на 100+ языках, официальная поддержка 30+.
Нативные функции:вызов инструментов из коробки – без дополнительного промпт-инжиниринга.
Доступна наHugging Face, вGoogle AI Studio.
12) GPT-OSS-120B – OpenAI открывает карты
Долгое время OpenAI была синонимом “закрытости”. Пока DeepSeek, Llama и Gemma делились весами свободно, OpenAI держалась закрытой моделью. Всё изменилось с выходомGPT-OSS-120B– первой крупной открытой модели компании за долгое время.
Что это такое
GPT-OSS-120B – открытая модель весом 117 миллиардов параметров (активных – всего 5,1 млрд, архитектура MoE). ЛицензияApache 2.0, коммерческое использование разрешено без дополнительных условий.
GPQA Diamond
На бенчмарке MMLU-Pro: 80% – это меньше, чем у лидеров, но конкурентно с более скромными открытыми аналогами.
GPT-OSS-120B работает значительно медленнее, чем привычные чат-боты, а также модель нередко впадает в длительные рассуждения. Для задач, где важна скорость, это может раздражать. Если вы готовы подождать, то нормально, но если привыкли к мгновенным ответам ChatGPT – первые сессии с GPT-OSS-120B могут стать неожиданностью.
Формат промптов: OpenAI Harmony
Модель использует тот же формат промптов, что и фирменные модели ChatGPT (разделение ролей system/developer/user). Это значит: если у вас уже есть системы на OpenAI API, переключиться на GPT-OSS-120B можно с минимальными изменениями в коде.
Модель доступна на официальном сайтеgpt-oss.com– для входа требуется аккаунт Hugging Face.
Сравнительная таблица: что выбрать для своих задач
Модель/Сервис
Сильные стороны
Ограничения
Всё в одном, без VPN, доступен в России
Зависит от модели
Gemini 3 Flash
Скорость + большой контекст
Не для глубоких рассуждений
1M токенов
Gemini 3.1 Pro
Топ по рассуждениям, дешевле конкурентов
Хуже в экспертных текстах
1M токенов
4 агента, минимум галлюцинаций, реалтайм-данные
Медленнее одиночных моделей
2M токенов
ChatGPT 5.4
Баланс скорости/качества, агентный режим
Дороже Gemini
1.05M токенов
ChatGPT 5.4 Pro
Сложнейшие задачи, PhD-уровень
Очень медленная
1.05M токенов
Claude Opus 4.7
Лучший в агентном кодинге, визуальные задачи
1M токенов
Claude Sonnet 4.6
Лучший для экспертных текстов, скорость/цена
1M токенов
DeepSeek v3.2
Открытый, дешевле, мощный кодинг
Нужно серьёзное железо
128K токенов
Perplexity
Актуальная информация с источниками
Не для генерации текста
Gemma 4 26B A4B
Локально, Apache 2.0, MoE-эффективность
Нужно 48+ ГБ RAM
256K токенов
GPT-OSS-120B
Открытые веса OpenAI, Apache 2.0
Медленная генерация
Итог: как не запутаться в 2026 году
Рынок LLM сейчас похож на зрелую отрасль: нет единственного лидера, есть специализации. Вот моя личная шпаргалка:
- Если важна скорость при приемлемом качестве –Gemini 3 Flash.
- Если нужен топ по рассуждениям за разумные деньги –Gemini 3.1 Pro.
- Если задача требует максимальной достоверности (факты дискутируются агентами, фактчекинг встроен) –Grok 4.20.
- Для повседневного кодинга и работы с документами –ChatGPT 5.4илиClaude Sonnet 4.6.
- Для сложнейших исследований, физики, финансового моделирования –ChatGPT 5.4 Pro.
- Для серьёзной разработки и агентного кодинга –Claude Opus 4.7.
- Для мощной опенсорс-модели –DeepSeek v3.2.
- Для исследований с актуальными источниками –Perplexity.
- Для локального запуска –Gemma 4 26B A4B.
- Для экспериментов с OpenAI-весами –GPT-OSS-120B.
Гонка продолжается. Уже сейчас на горизонте Grok 4.3, следующие версии Claude, неизбежный DeepSeek v4. Через три месяца этот список частично устареет – именно поэтому важно не искать “лучшую нейросеть навсегда”, а понимать, что вам нужно прямо сейчас.
Знакомый разработчик сказал: “Год назад я считал, что одна хорошая нейросеть – это роскошь. Теперь у меня их пять, и я использую разные под разные задачи”. Это правильный подход. LLM сегодня – это не одна универсальная таблетка. Это набор инструментов: есть молоток, есть отвёртка, есть шуруповёрт. А дальше – экспериментируйте. Нейросети сейчас развиваются настолько быстро, что лучший совет – просто начать.