Ваш любимый ИИ не умеет считать. Что ещё скрывает текстовая модель?

Технократический разбор для инженеров и бизнес-аналитиков. Без преувеличений и продающих лозунгов.

Эта статья — результат кабинетного исследования о работе больших языковых моделей (LLM). Здесь простым языком объясняется, как работает та «магия» ИИ, с которой мы сталкиваемся в повседневной жизни или слышим в рекламе.

Под ИИ здесь понимается публичная Большая языковая модель (LLM), например ChatGPT, GigaChat, Mistral и другие.

В статье мы:

  • рассмотрим два главных заблуждения о LLM (главы 1 и 2);
  • погрузимся в технологию LLM (глава 3);
  • разберём возможности, ограничения и особенности (глава 4) и ключевые инструменты (глава 5);
  • поймём, что такое ИИ-агенты (глава 6) и цифровые двойники с ИИ (глава 7);
  • пробежимся по популярным слоганам (глава 8) и типичным возражениям (глава 9).

1. Границы LLM — только текст

LLM — это текстовая генеративная нейросеть. Она умеет только понимать запросы и генерировать текст.

На первый взгляд это противоречит опыту: мы получаем от ИИ картинки, голосовые ответы, расчёты. Но на самом деле модель использует для этого дополнительные инструменты.

Если вы просите нарисовать изображение, LLM не рисует сама. Она формирует текстовый запрос и передаёт его другой нейросети, которая специализируется на генерации изображений.

При голосовом взаимодействии:

  • ваша речь преобразуется в текст с помощью сервиса Speech-to-Text;
  • LLM обрабатывает текст и генерирует текстовый ответ;
  • этот ответ озвучивается через Text-to-Speech.

Голосовой диалог — это цепочка из трёх технологий.

С расчётами — аналогично. Модель не считает, а воспроизводит паттерны. Например, 2×2=4 она «знает» из обучающей выборки. Но при умножении 592 на 946 модель может разбить задачу на шаги, имитируя умножение столбиком.

Сложные расчёты, например 44 567,456554 × 0,000004430987, модель не выполнит в уме. Вместо этого она может сгенерировать код на Python и запустить его через интерпретатор.

В моём эксперименте:

  • GigaChat сгенерировала код, запустила его и выдала точный результат: 0.19747782061383878;
  • Mistral сделала то же самое, но округлила результат, решив, что такая точность не нужна.

Модель не считает — она вызывает инструменты. Это её ключевая способность: видеть, что задача требует внешнего действия, и запускать соответствующий инструмент.

Типичные инструменты:

  • поиск в интернете (вызов поисковика);
  • открытие веб-страниц (встроенный браузер);
  • чтение файлов (извлечение текста);
  • построение диаграмм (текстовое описание → визуализация).

Модель не требует явных указаний: она сама решает, когда и какой инструмент использовать. Это создаёт иллюзию универсальности.

Вывод: без инструментов LLM умеет только работать с текстом. Больше ни с чем.

2. Обучение — это не генерация

Разговор с пользователем не учит модель. Это два разных процесса.

Генерация текста (инференс) происходит так:

  1. Модель загружается в память видеокарты.
  2. Сервер подаёт запрос.
  3. Модель обрабатывает его и выдаёт один токен (слово или его часть).
  4. Этот токен добавляется к запросу, и процесс повторяется (авторегрессия).
  5. Цикл продолжается до получения специального токена окончания.
  6. Результат отправляется пользователю.

Во время генерации таблица весов не меняется. Значит, модель не учится.

Обучение — это отдельный процесс, при котором корректируются веса. Оно бывает двух видов:

  • Предобучение — обучение с нуля на огромном объёме данных. Дорого и долго.
  • Дообучение (fine-tuning) — адаптация уже обученной модели под узкую задачу. Быстрее, но всё равно требует ресурсов.

Диалоги с пользователями не меняют текущую модель. Однако провайдеры могут использовать эти данные для обучения будущих версий моделей, если пользователь дал согласие.

Что делать, если нужно, чтобы модель «знала» вашу информацию?

Единственный способ — передать знания через запрос. Поскольку веса нельзя менять в реальном времени, всё, что влияет на ответ, должно быть в запросе: системный промпт, контекст, данные.

LLM — это генератор текста на основе заранее заложенных или переданных с запросом знаний.

3. Что такое LLM

LLM — результат двух прорывов:

  1. архитектура Трансформер, вдохновлённая принципами работы мозга;
  2. обучение на огромных объёмах данных — «почти всего интернета».

Современная публичная LLM — это два блока:

  1. Трансформер — понимает и генерирует текст;
  2. RLHF (обучение с подкреплением на основе обратной связи человека) — делает модель вежливой, безопасной и послушной.

Трансформер «видит» всё сразу

В отличие от старых нейросетей, Трансформер обрабатывает весь запрос целиком. Максимальный объём — это контекстное окно.

Благодаря этому модель замечает противоречия. Например, если в одном месте сказано «для новичков», а в другом используются термины вроде «инференс» и «fine-tuning» — она это увидит.

Как модель генерирует связный текст, если на каждом шаге она предсказывает только один токен?

Ответ: иерархия паттернов. Некоторые шаблоны задают структуру всего ответа, другие — порядок слов. Вместе они создают иллюзию целостного понимания.

Это как джазовая импровизация: музыкант не знает следующую ноту, но следует общей структуре.

Дрессировка модели

Без RLHF модель — просто генератор текста. Напишите «Привет» — и она продолжит как угодно.

RLHF учит её понимать, что запрос — это инструкция, и отвечать полезно, безопасно и вежливо.

Это как дрессировка собаки: модель не становится умнее, но начинает слушаться.

Итог: LLM = Трансформер (генерация паттернов) + RLHF (дрессировка, безопасность, следование инструкциям).

4. Сильные и слабые стороны

LLM «из коробки» может:

  • понимать запросы на естественном языке;
  • отвечать на основе знаний (до даты обучения);
  • использовать внешние данные (RAG);
  • трансформировать текст (обобщать, менять стиль и тон);
  • следовать инструкциям в промпте;
  • понимать, какие инструменты доступны и как их использовать;
  • строить цепочки рассуждений (Chain of Thought);
  • работать с машиночитаемыми форматами (JSON, XML и др.).

Однако LLM не может своими силами:

  • выполнять математические расчёты (может ошибаться даже в простых);
  • хранить большой объём информации в памяти (ограничено контекстным окном);
  • помнить пользователя после сессии (без сохранения истории);
  • обрабатывать большие датасеты (миллионы строк не влезут в контекст);
  • знать актуальные данные (знания ограничены датой обучения).

Особенности поведения:

  • Ответ не идемпотентен — один и тот же запрос может дать разные результаты.
  • Модель может нарушить формат вывода (например, испортить JSON), требуя валидации.
  • Очень чувствительна к формулировке запроса.
  • Инструкции имеют иерархию: встроенные (безопасность), системные промпты, пользовательские запросы.
  • Может галлюцинировать — уверенно выдавать ложную информацию.

Разделим области применения:

  • Алгоритмы — для детерминированных задач: расчёты, сортировка, криптография.
  • LLM — для текстовых задач: анализ, генерация, диалоги.
  • Другие нейросети — для изображений, звука, временных рядов.
  • Гибридные решения — LLM обрабатывает текст, алгоритмы — выполняют точные расчёты.
  • Суррогатные модели — нейросети дают быстрое приближение там, где точный расчёт слишком дорог.

LLM в продакшене почти никогда не работает в одиночку — её усиливают дополнительные технологии.

5. Технологии, усиливающие LLM: RAG и Function Calling

Что нужно ИИ?

Два условия для качественного ответа:

  1. Достаточно знаний.
  2. Достаточно рассудительности.

Рассудительность зависит от архитектуры и промпт-инжиниринга. Знания — от обучающей выборки и данных в запросе.

Обучение — вне рамок статьи. Остаётся управление запросом.

Проблема: мы не знаем заранее, какие данные и шаги понадобятся. Это две неопределённости:

  • Неопределённость инструкции — неясно, как решать задачу.
  • Неопределённость данных — неясно, какие данные нужны и откуда их брать.

RAG — база знаний для LLM

RAG (Retrieval-Augmented Generation) — способ подтягивать статичные данные: документы, инструкции, регламенты.

Как это работает:

  1. Документ разбивается на фрагменты («чанки»).
  2. Для каждого чанка вычисляется вектор (семантическое представление).
  3. При запросе вектор запроса сравнивается с векторами чанков.
  4. Находят самые близкие и возвращают их.

Например, запрос «как открываются двери?» вернёт фрагменты про двери, ручки, капот.

Две схемы RAG:

  • Семантический пайплайн — система автоматически дополняет запрос релевантными чанками.
  • Агентский пайплайн — LLM сама решает, когда и что запросить, используя Function Calling.

Function Calling — инструменты для LLM

Function calling — способ получать живые данные и выполнять действия: вызов API, калькуляторов, баз данных.

Процесс:

  1. Пользователь отправляет запрос.
  2. Оркестратор добавляет описание доступных инструментов.
  3. Модель решает, нужно ли вызвать инструмент, и отвечает JSON-структурой.
  4. Оркестратор выполняет вызов и получает результат.
  5. Результат добавляется в историю и отправляется модели как новый запрос.
  6. Модель либо вызывает новый инструмент, либо даёт финальный ответ.
  7. Оркестратор отправляет ответ пользователю.

RAG — для статики (документы). Function calling — для динамики (остатки, цены, статусы). Вместе они позволяют модели работать в условиях неопределённости.

Оркестратор — ядро ИИ-системы

Оркестратор — алгоритм, управляющий взаимодействием:

  • управляет системным промптом и его версиями;
  • обеспечивает память диалога (история + суммаризация);
  • обрабатывает ошибки формата (например, невалидный JSON);
  • обогащает запрос через RAG;
  • позволяет модели вызывать инструменты;
  • реализует мультимодальность (речь, изображения);
  • интегрирует с внешними системами (API, MCP);
  • запускает асинхронные задачи;
  • оркестрирует суб-агентов.

Память диалога — ключевая функция. LLM «помнит» только то, что в запросе. Поэтому история диалога передаётся в каждом новом запросе.

Память между сессиями — не обучение. Это дополнение запроса сохранёнными фактами (например, «обращайтесь ко мне по имени-отчеству»).

RAG и дополнение запроса — не обучение. Это передача знаний в запросе, а не изменение весов модели.

6. ИИ-агенты

Раньше агенты строились на жёстких правилах:

Агент = Триггер + Правила + Действия.

С LLM всё изменилось. Теперь:

Агент = Триггер + Инструкция + LLM + Инструменты + Действия.

Например, агент по возвратам может:

  • получить письмо клиента;
  • проверить заказ через API;
  • найти инструкцию через RAG;
  • вызвать оператора при необходимости.

Преимущества:

  • LLM учитывает нюансы: тон письма, противоречия, неполноту данных.

Риски:

  • модель может пропустить шаг, вызвать не тот инструмент, сгенерировать ошибку.

Решение — агент-проверяющий. Первый агент генерирует ответ, второй проверяет его. При ошибке — возврат на доработку. Это снижает вероятность сбоев.

Раньше автоматизация была как поезд по рельсам. Теперь — как маршрутка: гибкая, но может свернуть не туда.

7. Цифровые двойники

Цифровой двойник — виртуальная модель организации, включающая:

  • интеграцию данных (ERP, IoT и др.);
  • симуляции (дискретно-событийные, агентные);
  • аналитику (ML, оптимизация);
  • визуализацию (3D, дашборды);
  • обратную связь с реальным миром (API, IoT).

Сильные стороны: точность, надёжность, предсказуемость.

Слабые: сложный интерфейс, требует экспертов.

LLM добавляет новое качество:

  • интерфейс на естественном языке (NL2API, NL2SQL);
  • агентность — выполнение задач по инструкции;
  • оркестрация симуляций и оптимизаторов;
  • реакция на текстовые события (например, «задержка на таможне»);
  • объяснимость решений через Chain of Thought;
  • обработка неструктурированных данных (почта, новости).

Когда RAG и инструменты не хватает — на помощь приходят графы знаний (онтологии). Они:

  • позволяют модели быстро работать с большими объёмами связанных данных;
  • сами могут создаваться и обновляться с помощью LLM.

Гибридная архитектура:

  1. Верхний уровень — LLM и естественный язык.
  2. Средний уровень — оркестрация: RAG, инструменты, симуляции.
  3. Нижний уровень — классические движки: расчёты, ML, транзакционные системы, графы знаний.

Бизнес-эффект: от удобного интерфейса к самостоятельной аналитике и автоматической координации процессов.

8. Другие громкие фразы

  • Цифровой сотрудник — RPA + LLM для обработки документов. Эффект: автоматизация рутины.
  • Agentic AI — набор ИИ-агентов. Эффект: автономные цепочки действий.
  • RPA 2.0 / Intelligent Automation — то же, что «цифровой сотрудник».
  • Copilot — LLM + инструменты + RAG. Эффект: ускорение работы.

Большинство громких слоганов — это комбинация: LLM, RAG, инструменты и RPA.

9. Предупреждая возражения

  • «А если обучить трансформер на матрицах — он будет считать?» — Нет. Это будет другая нейросеть, не LLM.
  • «RLHF добавляет логику?» — Нет. Только послушание и вежливость.
  • «А как же логические рассуждения?» — Это воспроизведение паттернов, а не логика.
  • «Контекстное окно в миллион токенов — она всё запомнит?» — Нет. Даже код среднего проекта может не поместиться.
  • «LLM как база данных?» — Рискованно. Модель уверенно «помнит» частые факты, но придумывает редкие.
  • «Зачем RAG, если можно всё загрузить в контекст?» — Можно, но дорого и неэффективно.
  • «LLM пишет работающий код!» — Да, но нет гарантий. Часто содержит уязвимости. Требует проверки.
  • «ИИ прогнозирует продажи — значит, LLM работает с большими данными?» — Нет. Прогнозы делают другие модели (градиентный бустинг, временные ряды), не LLM.

Новое качество возникает не от одной технологии, а от их комбинации:

  • LLM = Трансформер + RLHF. Уникальна в работе с неопределённостью.
  • RAG и Function calling расширяют её возможности.
  • LLM не заменит алгоритмы и расчётные системы.
  • Агент — это оркестрация модели, инструментов и инструкции.
  • Гибридные системы — путь вперёд: LLM для гибкости, классические движки — для точности.
  • Цифровые двойники с LLM — мейнстрим ближайших лет.
Читать оригинал