Как я научил ИИ читать советские ГОСТы и сократил подготовку карт контроля с 2 часов до 5 минут

Как я научил ИИ читать советские ГОСТы и сократил подготовку карт контроля с 2 часов до 5 минут

Реальный кейс: как LLM заменяет трёх технологов на металлургическом заводе — и почему «универсальный подход» не сработал.

Вначале было... 2 часа на одну карту контроля

Представьте металлургическое предприятие полного цикла: 3200 человек и более 4500 наименований продукции, которые постоянно обновляются и дополняются.

Раньше подготовка к испытаниям выглядела так: технолог открывал ГОСТ (или ОСТ, или другой нормативный документ), находил таблицу, подставлял в неё параметры — например, диаметр поковки — и определял требуемое значение контроля. Затем он записывал его в карту контроля.

Эту процедуру нужно было повторить более чем для 40 параметров.

Оцените масштаб: свыше 4500 позиций номенклатуры и более 200 нормативных документов. Большинство из них — отсканированные PDF-файлы советских ГОСТов и ОСТов.

На подготовку одной карты уходило более двух часов. Моя задача — сократить это время.

Вариант №1. Парсер

Первый вопрос: почему не использовать шаблонный парсер?

Потому что каждый ГОСТ оформлен по-своему. В одних документах параметры находятся в таблицах, в других — в примечаниях, а в третьих — разбросаны по тексту с отсылками к другим разделам.

Нужно не просто извлекать данные, а понимать их смысл.

Идея: LLM как технолог

Что, если использовать LLM как интеллектуальный парсер? Тогда задача выглядит так:

  • Нормативный документ (ГОСТ/ОСТ) — скан в формате PDF
  • Характеристики номенклатуры (марка стали, диаметр заготовки, группа)
  • Список параметров контроля с алгоритмами их определения

На выходе — таблица: параметр контроля, значение, источник (раздел или таблица ГОСТа).

Цель ясна. Осталось реализовать.

Вариант №2. Универсальный промт

Вторая гипотеза была простой: создать универсальный промт для всех нормативных документов.

Я начал тестировать модели в Perplexity. Первый ГОСТ прошёл успешно: Claude Sonnet 4.6 определил 85% параметров, GPT-4 — 72%. Обе модели работали в режиме «мышления».

Но успех оказался кратковременным. На других ГОСТах модели стабильно ошибались. Я корректировал промт — ошибки оставались.

Надежда на универсальный подход рухнула. Система спотыкалась на различиях между документами: где-то параметр вычислялся по вложенным таблицам, где-то задавался константой.

Оставался один путь — делать промт под каждый конкретный ГОСТ. Проблема в том, что на предприятии используется более 200 таких документов.

Вариант №3. Архитектура, которая сработала

Выяснилось, что 80% номенклатуры описывается всего 18% ГОСТов. Принцип Парето в действии.

Для пилота выбрали 20 самых востребованных документов.

Структура решения

Для каждого ГОСТа я создал отдельный промт с чёткими правилами:

  • Название параметра и соответствующий ГОСТ
  • Где в документе указан параметр (раздел, таблица)
  • Как интерпретировать граничные случаи: диапазоны, «не менее», «не более»

Процесс отладки

На вход подавались параметры номенклатуры и PDF-скан ГОСТа. На выходе — таблица с результатами.

Если возникала ошибка, я загружал в Perplexity скриншот, указывал правильные значения и просил объяснить ошибку. После получения корректного ответа давал команду: «Обнови правило XX, чтобы ошибка больше не повторялась».

Потребовалось 9 итераций. За 14 рабочих дней система научилась извлекать параметры по выбранным ГОСТам без ошибок.

Главный результат: время подготовки карты контроля сократилось до 3–5 минут. В 24 раза быстрее, чем раньше.

Что делаю сейчас

Добавляю новые ГОСТы и строю следующий слой автоматизации:

  • Все правила хранятся в Excel-таблице — не в промтах, чтобы технологи могли сами вносить правки
  • На вход промта подаётся Excel-файл с данными
  • На выходе — таблица, готовая к загрузке во внутреннюю информационную систему предприятия

Современные ИИ справляются с обработкой PDF-сканов: сложные структуры, вложенные таблицы и даже плохое качество сканирования уже не проблема.

  • Принцип Парето — ваш союзник. Не пытайтесь оцифровать всё сразу. Найдите 20% документов, охватывающих 80% задач, и начните с них.
  • Промт под конкретный документ работает лучше универсального. Это менее элегантно, но надёжно.
  • Итеративная отладка — ключ к точности. Большинство ошибок были связаны с вложенными таблицами. Единые правила их обработки устранили проблему.
  • Claude Sonnet — лучшая модель для сложных технических документов.

Кому это может быть полезно

Подход подойдёт для отраслей с такими признаками:

  • Большой массив нормативных документов (ГОСТы, ОСТы, СНиПы)
  • Документы не содержат конфиденциальной информации
  • Требуется ручной перенос параметров в информационные системы
  • Форматы документов разнородные: разное качество, структура, оформление

Например: металлургия, машиностроение, химическая промышленность, строительство, фармацевтика, энергетика.

Читать оригинал