От криптоанализа к AI-forensics: как мы научились локально исправлять квантованные слои в GPT-20B

Habr AI 21 апр 2026

Мы перенесли методы криптоанализа в область искусственного интеллекта, создав точную инфраструктуру для диагностики и коррекции квантованных слоёв в модели gpt-oss-20b-TurboQuant-MLX-8bit. Вместо традиционного fine-tuning мы не меняли архитектуру и не дообучали модель. Вместо этого мы превратили квантованный слой из чёрного ящика в наблюдаемый, проверяемый и локально корректируемый объект.

Почему переход от криптографии к ИИ логичен

В криптографии мы научились видеть за подписью Schnorr не магию, а аффинную структуру: приватный ключ, nonce, challenge и подпись образуют линейную систему. Это позволило заменить слепое доверие протоколу на строгую математическую проверку.

В ИИ мы сделали то же самое. Вместо вопроса «отвечает ли модель хорошо?» мы спустились на уровень её внутренней линейной алгебры: квантованные коды, scale/bias, активации и эталонные выходы. Теперь главный вопрос — можно ли представить слой как точный аффинный объект, наблюдать его поведение и локально исправлять без разрушения всей модели?

Мы построили exact AI-forensics pipeline, в котором квантованный слой перестаёт быть чёрным ящиком и становится объектом инженерной диагностики.

Что мы взяли и что изменили

Мы не меняли архитектуру, attention, токенизатор или inference-пайплайн. Мы изменили способ работы с моделью:

перестали воспринимать .safetensors как opaque-контейнер;
научились извлекать квантованные коды, scale и bias;
стали захватывать реальные BF16-активации с живого MLX-рантайма;
свели коррекцию весов к задаче целочисленной оптимизации;
реализовали безопасную запись патча обратно в модель;
добавили smoke-check для проверки совпадения offline-математики и runtime-поведения.

Ключевые шаги метода

Шаг 1. Точный доступ к .safetensors

Мы написали мост к MLX-квантованию, позволяющий:

находить нужный тензор;
читать его raw-представление;
извлекать квантованные коды и параметры масштабирования;
записывать изменённые коды обратно.

Без этого веса остаются «готовым blob», и точная работа с ними невозможна.

Шаг 2. Детерминированный calibration cache

Мы собрали стабильный набор примеров для воспроизводимости экспериментов. Каждый запуск использует:

один и тот же набор данных;
один и тот же слой;
один и тот же вход и эталонный выход;
одну и ту же метрику ошибки.

Это исключает «кажется, стало лучше» и превращает анализ в инженерную процедуру.

Шаг 3. Захват реальных активаций

Мы не симулируем слой — мы захватываем pre_linear_input и linear_output_reference с последнего токена в реальном MLX-рантайме. Это данные, которые модель генерирует сама, а не абстрактная модель.

Математическая модель квантованного слоя

Квантованный слой мы представили как аффинную систему. Пусть веса разбиты на блоки. Для каждого блока:

c — вектор квантованных кодов;
s — scale;
b — bias.

Деквантованный вес: w = s ⋅ c + b. Выход слоя — линейная комбинация входа и деквантованных весов. Это превращает слой в систему, поддающуюся точной оптимизации.

Оптимизация: локальная и консервативная

Мы ищем новый кодовый вектор, который:

лучше воспроизводит эталонный выход;
не уходит далеко от исходных кодов;
ограничен по максимальному изменению одного кода.

Задача — регуляризованная целочисленная оптимизация с жёсткими ограничениями. Цель — не переписать слой целиком, а чинить локально и контролируемо.

Ключевое ограничение: нужен внешний эталон

Если цель оптимизации — сам квантованный слой, лучший патч — ничего не менять.

Без внешнего эталона (реальные активации, holdout, reference-output) любое «улучшение» будет иллюзорным. Именно поэтому наш pipeline строится вокруг захвата и holdout, а не самосравнения.

Результаты: q_proj vs router

Аудит q_proj: жёсткая структура

Слой q_proj оказался структурно «жёстким»:

нет тривиальных повторов;
нет клонов блоков;
нет симметрий или компрессии.

Система не нашла non-identity патчей. Это не ошибка — это доказательство границ применимости метода.

Успех с router: устойчивое улучшение

Для слоя model.layers.0.mlp.router.weight мы построили полный pipeline:

calibration cache;
runtime capture;
blockwise оптимизация;
holdout validation;
safe patch;
smoke-check.

На train-shard MSE упал с 0.02297 до 3e-11. На holdout — с 0.02278 до 4.37e-5. Коэффициент переноса — 0.99. Это не переобучение, а устойчивая локальная корректировка.

Safe patch и smoke-check: от математики к реальности

После расчёта патч был безопасно записан в .safetensors с контролем readback. Но самый важный этап — smoke-check.

Он показал: вход в слой воспроизводится идеально, но реальный runtime-выход не совпал с offline-эталоном, несмотря на отличные метрики в solver-отчётах.

На первый взгляд — ошибка. На самом деле — прорыв:

Система умеет обнаруживать расхождение между offline-моделью и реальной семантикой MLX-рантайма.

Что мы реально изменили

Мы не меняли модель. Мы изменили логику работы с ней:

точное чтение кодов;
разбор по блокам;
захват BF16-активаций;
ограниченная integer-оптимизация;
безопасная запись патча;
проверка на несоответствие runtime.

Теперь MLX-дистрибутив — не чёрный ящик, а система, которую можно инструментировать и хирургически править.

Возможности системы

Exact audit — разбор весов до уровня U32-кодов и block geometry.
Runtime capture — снятие активаций с живого MLX-рантайма.
Локальная коррекция — патчинг без разрушения слоя.
Safe patching — запись с контролем точного совпадения.
Holdout validation — отличие улучшения от переобучения.
Runtime mismatch detection — обнаружение расхождения между математикой и исполнением.

Что мы пока не утверждаем

Мы не заявляем, что:

любой слой можно исправить;
q_proj уже улучшен;
семантика MLX полностью раскодирована;
AI усиливает криптоанализ end-to-end;
lattice-методы готовы к production.

Но мы можем утверждать:

Построена рабочая exact AI-forensics инфраструктура для квантованной MLX-модели.

Почему это важнее fine-tuning

Обычный fine-tuning спрашивает: «как сделать модель в среднем лучше?».

Мы спрашиваем: «что делает конкретный слой, как он устроен, и можно ли его локально исправить с полным контролем?».

Это другой уровень доступа — не «подкрутить поведение», а разобрать внутреннюю механику до уровня квантованных кодов.

Именно поэтому AI-ветка у нас выросла не из MLOps, а из криптоанализа. Задача одна и та же:

Перестать верить чёрному ящику и заменить веру — наблюдаемой структурой.

Итог

Мы добавили к модели не скрипт, а целую инфраструктуру:

bridge к .safetensors;
calibration cache;
BF16 capture;
blockwise optimization;
safe patch;
holdout validation;
runtime smoke-check.

Подтверждённые результаты:

router-слой допускает осмысленную локальную коррекцию с переносом на holdout;
offline-модель и MLX-рантайм ещё не совпадают, но система это честно обнаруживает.

Сегодня мы умеем в ИИ то же, что делаем в криптографии:

Выделять объект, формализовать его как аффинную систему, локально исправлять и проверять, не обманывает ли нас среда исполнения.

AI перестаёт быть «магией модели» — он становится объектом точной инженерной диагностики. И это, похоже, только начало.

Читать оригинал

От криптоанализа к AI-forensics: как мы научились локально исправлять квантованные слои в GPT-20B

Почему переход от криптографии к ИИ логичен

Что мы взяли и что изменили

Ключевые шаги метода

Шаг 1. Точный доступ к .safetensors

Шаг 2. Детерминированный calibration cache

Шаг 3. Захват реальных активаций

Математическая модель квантованного слоя

Оптимизация: локальная и консервативная

Ключевое ограничение: нужен внешний эталон

Результаты: q_proj vs router

Аудит q_proj: жёсткая структура

Успех с router: устойчивое улучшение

Safe patch и smoke-check: от математики к реальности

Что мы реально изменили

Возможности системы

Что мы пока не утверждаем

Почему это важнее fine-tuning

Итог

От криптоанализа к AI-forensics:

как мы взяли gpt-oss-20b-TurboQuant-MLX-8bit, изменили логику наблюдения и научились точечно исправлять квантованные слои

Почему переход от Schnorr к AI вообще естественен

Что именно мы взяли

Что именно мы изменили

Шаг 1. Exact bridge к .safetensors

Шаг 2. Детерминированный calibration cache

Шаг 3. Захват реальных активаций

Математическая модель квантованного слоя

Что именно мы оптимизируем

Важная теорема: почему без внешнего эталона честного patch не будет

Что показал аудит q_proj

Структурная картина

Где patch действительно сработал: router

Параметры эксперимента

Результат на train

Проверка на holdout

Safe patch: почему это не просто красивый отчёт

Результат записи

Самая честная часть всей истории: smoke-check

Smoke-check: General

Smoke-check: Logic

Что мы реально изменили в модели

Что теперь умеет наша система

1. Exact audit квантованных слоёв

2. Runtime capture живой модели

3. Локальную integer-коррекцию

4. Safe patching

5. Holdout validation

6. Runtime mismatch detection

Что мы пока не заявляем

Почему это интереснее обычного fine-tuning

Короткое послесловие