Большие языковые модели по-прежнему работают по принципу предсказания следующего слова. Два года назад этого казалось достаточно, чтобы считать их ограниченными — их логика выглядела неуклюжей. Но сегодня LLM стали значительно умнее, и одно лишь масштабирование моделей не объясняет этот прогресс.
Как мы понимали LLM в 2024 году
Крупные языковые модели (LLM) — это бессостоятельные механизмы, предсказывающие следующий токен. Они обучаются на огромных объёмах текста и хранят знания в сжатом, странном виде.
Внутренне такая система — это сложная машина, выполняющая сопоставление с шаблонами и генерирующая поток токенов.
Если бы в 2024 году вы спросили у ChatGPT:
Как будет дешевле добраться из Лондона до Барселоны — лететь самолётом или взять билет на поезд в следующую пятницу?
— она дала бы обобщённый, но бесполезный ответ, основанный на типичных ценах и маршрутах. Ответ был бы логичным, но не актуальным.
С тех пор ничего фундаментального не изменилось — но подход к решению задач стал другим. К 2026 году ответы вышли на совершенно новый уровень.
Модели учатся говорить «Я не знаю»
Одной из главных проблем LLM в 2024 году была их уверенность в ложной информации — галлюцинации.
Решение оказалось простым: научить модели распознавать неопределённость и отвечать «я не знаю».
Теперь модели обучаются реагировать на запросы вроде:
Какая сейчас погода в Париже?
следующим образом:
Извини, у меня нет доступа к оперативным данным о погоде. Можно проверить на сайте weather.com.
Такие примеры учат модели самокритичности. Они сами начинают определять, когда информации недостаточно, и действовать соответственно.
Использование инструментов
Модели научились не просто отказываться от ответа, но и запрашивать данные с помощью инструментов.
Они генерируют специальный токен — вызов инструмента. Система перехватывает его, выполняет запрос и возвращает результат в контекст модели.
Например:
Какая сейчас погода в Париже? → [TOOL_CALL: web_search(“weather Paris”)] → (результат внедряется в контекст) Сейчас в Париже 18°C и небольшая облачность.
Для пользователя это выглядит как простой ответ. Но модель теперь использует не только внутренние знания, а и внешние источники — интернет, базы данных, API.
Если нужны вычисления, модель может сгенерировать код на Python и передать его на выполнение.
Рассуждение: цепочка мыслей
Раньше модели отвечали за один проход. Но в 2022 году появилась идея: добавить в промпт фразу «думай пошагово».
Это улучшило результаты в задачах на логику. Такой подход назвали цепочкой рассуждений (chain-of-thought prompting). Однако модель по-прежнему не проверяла свои шаги.
Автоматизация мышления
Если человек может направлять модель, проверяя каждый шаг, почему бы не поручить это другой модели?
Или одной и той же модели — пусть она играет обе роли: генератора и критика.
Это работает. Но стало ещё эффективнее, когда в игру вступило обучение с подкреплением (Reinforcement Learning, RL).
Обучение с подкреплением
После предобучения модель решает задачи в цикле. Каждый ответ оценивается. С течением времени модель учится генерировать более качественные ответы — те, что получают высокие оценки.
Так активируются веса, ведущие к правильным решениям. Модель начинает чаще использовать успешные стратегии.
Вся информация уже есть в базовой модели. Обучение с подкреплением лишь повышает вероятность её правильного использования.
Это первый реальный способ получать интеллект, пропорциональный вычислительным затратам.
Раньше использовалось RLHF — обучение с подкреплением с участием людей. Оно делало модели вежливыми, но субъективными и дорогими.
Прорывом стало RLVR — обучение с подкреплением на основе верифицируемых вознаграждений. В математике и программировании правильность ответа можно проверить автоматически. Такой подход легко масштабируется: проверить проще, чем решать.
Нативные рассуждения
После внедрения RLVR произошло неожиданное: модели начали сами разбивать задачи на шаги. Их никто этому не учил — веса сдвинулись сами, потому что такой подход приносил лучшие результаты.
Теперь, сталкиваясь со сложной задачей, модель может сгенерировать:
- «Дай я разделю это на части»
- «Дай я ещё раз проверю»
- «На первый взгляд, это неверно, дай мне ещё раз обдумать»
Это не просто цепочка рассуждений по промпту. Модель сама распознаёт сложность и включает режим глубокого анализа.
Обучение с подкреплением поощряет не просто ответ, а процесс, ведущий к правильному ответу. И этим процессом становятся рассуждения.
Вычисления во время вывода
Как только модель научилась рассуждать, сделать её умнее стало проще: дайте ей больше времени на размышление.
На этапе логического вывода — когда вы уже задали вопрос — модель может сгенерировать дополнительные токены: исследовать гипотезы, проверять логику, пересматривать шаги.
Без RL эти токены были бы шумом. С RL — это продуктивное мышление.
LLM-рассуждение — это поиск по возможным путям решения на основе изученной эвристики.
Теперь интеллект зависит не только от знаний в весах, но и от вычислительной мощности, потраченной на размышление в момент ответа.
Синергия возможностей
Модель, способная и рассуждать, и использовать инструменты, принципиально превосходит ту, что умеет только одно.
Вернёмся к вопросу о поездке из Лондона в Барселону.
Модель, использующая только инструменты, найдёт цены, но не сможет их осмысленно сравнить. Рассуждающая модель без доступа к данным оперирует вымышленными цифрами.
Но модель, сочетающая оба навыка, действует иначе:
- Определяет, какие данные нужны — цены на рейсы и поезда
- Делает несколько вызовов инструментов
- Пишет программу для анализа маршрутов, с учётом времени в пути и пересадок
- Проверяет актуальность данных, при необходимости повторяет запрос
- Формулирует обоснованный, персонализированный ответ
Рассуждения выбирают инструменты. Инструменты подкрепляют рассуждения.
Заключение
Современные LLM по-прежнему предсказывают следующее слово.
Но теперь их можно научить:
- Признавать незнание
- Использовать внешние инструменты
- Рассуждать перед ответом
- Проверять собственные выводы
Результат — гораздо более полезные и надёжные системы. Да, модели всё ещё галлюцинируют, усложняют простое и залипают в циклах. Но с 2024 года был достигнут колоссальный прогресс.