Почему никто не ожидал, что предсказание следующего слова окажется таким успешным

Почему никто не ожидал, что предсказание следующего слова окажется таким успешным

Большие языковые модели по-прежнему работают по принципу предсказания следующего слова. Два года назад этого казалось достаточно, чтобы считать их ограниченными — их логика выглядела неуклюжей. Но сегодня LLM стали значительно умнее, и одно лишь масштабирование моделей не объясняет этот прогресс.

Как мы понимали LLM в 2024 году

Крупные языковые модели (LLM) — это бессостоятельные механизмы, предсказывающие следующий токен. Они обучаются на огромных объёмах текста и хранят знания в сжатом, странном виде.

Внутренне такая система — это сложная машина, выполняющая сопоставление с шаблонами и генерирующая поток токенов.

Если бы в 2024 году вы спросили у ChatGPT:

Как будет дешевле добраться из Лондона до Барселоны — лететь самолётом или взять билет на поезд в следующую пятницу?

— она дала бы обобщённый, но бесполезный ответ, основанный на типичных ценах и маршрутах. Ответ был бы логичным, но не актуальным.

С тех пор ничего фундаментального не изменилось — но подход к решению задач стал другим. К 2026 году ответы вышли на совершенно новый уровень.

Модели учатся говорить «Я не знаю»

Одной из главных проблем LLM в 2024 году была их уверенность в ложной информации — галлюцинации.

Решение оказалось простым: научить модели распознавать неопределённость и отвечать «я не знаю».

Теперь модели обучаются реагировать на запросы вроде:

Какая сейчас погода в Париже?

следующим образом:

Извини, у меня нет доступа к оперативным данным о погоде. Можно проверить на сайте weather.com.

Такие примеры учат модели самокритичности. Они сами начинают определять, когда информации недостаточно, и действовать соответственно.

Использование инструментов

Модели научились не просто отказываться от ответа, но и запрашивать данные с помощью инструментов.

Они генерируют специальный токен — вызов инструмента. Система перехватывает его, выполняет запрос и возвращает результат в контекст модели.

Например:

Какая сейчас погода в Париже? → [TOOL_CALL: web_search(“weather Paris”)] → (результат внедряется в контекст) Сейчас в Париже 18°C и небольшая облачность.

Для пользователя это выглядит как простой ответ. Но модель теперь использует не только внутренние знания, а и внешние источники — интернет, базы данных, API.

Если нужны вычисления, модель может сгенерировать код на Python и передать его на выполнение.

Рассуждение: цепочка мыслей

Раньше модели отвечали за один проход. Но в 2022 году появилась идея: добавить в промпт фразу «думай пошагово».

Это улучшило результаты в задачах на логику. Такой подход назвали цепочкой рассуждений (chain-of-thought prompting). Однако модель по-прежнему не проверяла свои шаги.

Автоматизация мышления

Если человек может направлять модель, проверяя каждый шаг, почему бы не поручить это другой модели?

Или одной и той же модели — пусть она играет обе роли: генератора и критика.

Это работает. Но стало ещё эффективнее, когда в игру вступило обучение с подкреплением (Reinforcement Learning, RL).

Обучение с подкреплением

После предобучения модель решает задачи в цикле. Каждый ответ оценивается. С течением времени модель учится генерировать более качественные ответы — те, что получают высокие оценки.

Так активируются веса, ведущие к правильным решениям. Модель начинает чаще использовать успешные стратегии.

Вся информация уже есть в базовой модели. Обучение с подкреплением лишь повышает вероятность её правильного использования.

Это первый реальный способ получать интеллект, пропорциональный вычислительным затратам.

Раньше использовалось RLHF — обучение с подкреплением с участием людей. Оно делало модели вежливыми, но субъективными и дорогими.

Прорывом стало RLVR — обучение с подкреплением на основе верифицируемых вознаграждений. В математике и программировании правильность ответа можно проверить автоматически. Такой подход легко масштабируется: проверить проще, чем решать.

Нативные рассуждения

После внедрения RLVR произошло неожиданное: модели начали сами разбивать задачи на шаги. Их никто этому не учил — веса сдвинулись сами, потому что такой подход приносил лучшие результаты.

Теперь, сталкиваясь со сложной задачей, модель может сгенерировать:

  • «Дай я разделю это на части»
  • «Дай я ещё раз проверю»
  • «На первый взгляд, это неверно, дай мне ещё раз обдумать»

Это не просто цепочка рассуждений по промпту. Модель сама распознаёт сложность и включает режим глубокого анализа.

Обучение с подкреплением поощряет не просто ответ, а процесс, ведущий к правильному ответу. И этим процессом становятся рассуждения.

Вычисления во время вывода

Как только модель научилась рассуждать, сделать её умнее стало проще: дайте ей больше времени на размышление.

На этапе логического вывода — когда вы уже задали вопрос — модель может сгенерировать дополнительные токены: исследовать гипотезы, проверять логику, пересматривать шаги.

Без RL эти токены были бы шумом. С RL — это продуктивное мышление.

LLM-рассуждение — это поиск по возможным путям решения на основе изученной эвристики.

Теперь интеллект зависит не только от знаний в весах, но и от вычислительной мощности, потраченной на размышление в момент ответа.

Синергия возможностей

Модель, способная и рассуждать, и использовать инструменты, принципиально превосходит ту, что умеет только одно.

Вернёмся к вопросу о поездке из Лондона в Барселону.

Модель, использующая только инструменты, найдёт цены, но не сможет их осмысленно сравнить. Рассуждающая модель без доступа к данным оперирует вымышленными цифрами.

Но модель, сочетающая оба навыка, действует иначе:

  • Определяет, какие данные нужны — цены на рейсы и поезда
  • Делает несколько вызовов инструментов
  • Пишет программу для анализа маршрутов, с учётом времени в пути и пересадок
  • Проверяет актуальность данных, при необходимости повторяет запрос
  • Формулирует обоснованный, персонализированный ответ

Рассуждения выбирают инструменты. Инструменты подкрепляют рассуждения.

Заключение

Современные LLM по-прежнему предсказывают следующее слово.

Но теперь их можно научить:

  • Признавать незнание
  • Использовать внешние инструменты
  • Рассуждать перед ответом
  • Проверять собственные выводы

Результат — гораздо более полезные и надёжные системы. Да, модели всё ещё галлюцинируют, усложняют простое и залипают в циклах. Но с 2024 года был достигнут колоссальный прогресс.

Читать оригинал