DeepMind предложила тест для AGI на основе когнитивной психологии

Habr AI 23 мар 2026

Почти три года назад Google DeepMind представила работу «Levels of AGI», в которой определила пять уровней развития ИИ — от начального до сверхчеловеческого — и шесть уровней автономии. Это дало индустрии общую терминологию, похожую на классификацию автономного вождения, но без инструментов измерения осталась чисто теоретической. Каждая компания могла объявить свою модель продвинутой — и никто не мог это проверить.

В марте 2026 года вышло продолжение — «Measuring Progress Toward AGI». В нём DeepMind предлагает не единый скор, а десять отдельных шкал для оценки ИИ. Они построены не на стандартных датасетах, а на методах когнитивной психологии. Это попытка создать объективный, многомерный способ измерения интеллекта систем.

Проблемы текущих бенчмарков

Авторы сначала разбирают, почему существующие тесты не работают.

Первая проблема — загрязнение данных. Модели обучаются на огромных корпусах, куда попадают ответы на популярные бенчмарки вроде MMLU или HumanEval. Со временем модели просто запоминают правильные ответы, а не учатся решать задачи. Они блестяще справляются с оригинальными формулировками, но спотыкаются на переформулированных — что указывает на отсутствие настоящего понимания.

Вторая проблема — смешение модели и системы. Когда тестируют ChatGPT, на самом деле тестируют не только языковую модель, но и системный промпт, поисковик, интерпретатор кода, цепочку рассуждений. Если модель находит исторический факт через веб-поиск, это проверка навыка использования инструментов, а не памяти. Современные бенчмарки не различают эти компоненты.

Когнитивная таксономия: 10 способностей ИИ

Центральный элемент работы — когнитивная таксономия. Общий интеллект разбит на десять способностей: восемь фундаментальных и две составных.

Восприятие — обработка сенсорной информации. Авторы отмечают: языковые модели получают текст в виде токенов, минуя зрение и слух. Это не аналог человеческого восприятия, а принципиально иной канал.
Генерация — создание выходов: текста, речи, кода, действий. Сюда входит и внутренняя генерация — цепочки рассуждений. Важно, что генерация отделена от рассуждения: модель может выдавать гладкий текст, но не уметь планировать.
Внимание — не механизм трансформеров, а когнитивная способность управлять фокусом. Это баланс между концентрацией на задаче и реакцией на новые стимулы.
Обучение — приобретение знаний через опыт. Авторы подчёркивают: адаптация в рамках одного диалога — не обучение. Настоящее обучение требует устойчивого изменения поведения и способности сохранять знания со временем.
Память — включает знания о мире, воспоминания, навыки и намерения. Забывание авторы считают полезной функцией: умение отбрасывать устаревшую или неверную информацию не менее важно, чем хранение. Современные модели не умеют избирательно стирать данные из параметров.
Рассуждение — дедукция, индукция, абдукция, аналогии, математика. Автоматическое угадывание ответа по формальным признакам вопроса к рассуждению не относится.
Метакогниция — знание о собственных знаниях. Мониторинг уверенности, обнаружение ошибок, коррекция стратегий. Авторы называют это главным разрывом между людьми и ИИ. Модели не знают, чего они не знают — отсюда уверенные галлюцинации. Увеличение размера модели этот разрыв не устраняет.
Исполнительные функции — целеполагание, планирование, торможение импульсов, когнитивная гибкость. Здесь проявляются слабости AI-агентов: они не умеют переключаться между стратегиями и терпят крах в многошаговых задачах.

Две составные способности объединяют несколько базовых:

Разрешение проблем — синтез восприятия, рассуждения, планирования и обучения. Включает гибкое мышление, интуитивную физику, здравый смысл. Провал в одной базовой способности ломает всё решение.
Социальное познание — моделирование убеждений и намерений других, кооперация, переговоры, убеждение и даже обман. Авторы считают, что полный социальный интеллект требует понимания манипулятивных стратегий, даже если применять их не планируется.

Почему именно десять способностей — вопрос открытый. Когнитивная наука не имеет единого мнения: одни модели выделяют восемь аспектов, другие — пятнадцать. В списке нет креативности и эмоциональной регуляции. Но авторы делают ключевое заявление: система с серьёзной слабостью хотя бы в одной способности будет проваливаться в реальных задачах. Это не пожелания — это минимум для AGI.

Трёхэтапный протокол измерения

Таксономия без измерений — академическое упражнение. DeepMind предлагает конкретный подход:

Тестирование по каждой способности. Задачи изолируют одну способность, не смешивая её с другими. Банки задач закрыты и проходят независимый аудит. Сложность градуирована: есть задачи, простые для людей, но сложные для ИИ, и наоборот. Форматы — от тестов с выбором до мультимодальных сценариев.
Сравнение с людьми. Та же выборка задач выполняется людьми в идентичных условиях: те же инструкции, форматы, доступ к инструментам.
Расчёт перцентилей. Для каждой способности определяется, какую долю людей система превосходит. Результат — радарная диаграмма по десяти осям.

Рваный профиль и его значение

Модель может рассуждать на уровне 95-го перцентиля — лучше 95% людей, — но иметь метакогницию на уровне 20-го. Усреднение даёт впечатляющий результат — например, 72-й перцентиль. Но радарная диаграмма показывает критическую яму.

Авторы называют это рваным профилем — впечатляющие пики и глубокие провалы. Главный аргумент: рваный профиль — это не AGI, даже если средний балл выглядит внушительно. Надёжность важнее пика.

Где не хватает инструментов

Авторы указывают пять способностей, для которых пока нет адекватных бенчмарков:

Обучение: как отличить настоящее усвоение знаний от воспроизведения заученного паттерна?
Метакогниция: как проверить, знает ли модель свои границы? Существующие методы оценки калибровки уверенности ещё не стали стандартом.
Внимание: устойчивость к отвлекающим факторам и поддержание фокуса в длинных контекстах. Тест «иголка в стоге сена» — шаг вперёд, но слишком прост.
Исполнительные функции: когнитивная гибкость, переключение стратегий, торможение импульсов — всё, на чём агенты регулярно ломаются. Диагностических инструментов почти нет.
Социальное познание: моделирование чужих убеждений, понимание нюансов взаимодействия. Существующие тесты на теорию разума слишком просты и не различают передовые модели.

Работа не делает модели умнее и не приближает AGI. Но она предлагает способ проверить, насколько система действительно близка к общему интеллекту — не по одному показателю, а по десяти осям, сравнивая каждую с людьми. Таксономия может вызывать споры, задачи со временем попадут в обучающие данные, сбор человеческих данных дорог. Но сам подход — применить когнитивную психологию к ИИ-индустрии, которая годами меряла прогресс заученными тестами — правильный и необходимый шаг.