Тесты на ИИ не работают. Вот что нужно вместо них

MIT Tech Review AI 31 мар 2026

На протяжении десятилетий искусственный интеллект (artificial intelligence, AI) оценивали по одному критерию: превосходит ли он человека. От шахмат до математики, от программирования до написания эссе — способности ИИ тестируют в соревновании с людьми, выполняющими отдельные задачи.

Такой подход заманчив: сравнение ИИ и человека по чётким, однозначным задачам легко стандартизировать, сопоставлять и оптимизировать. Оно порождает рейтинги и громкие заголовки.

Но есть проблема: ИИ почти никогда не используется так, как его тестируют. Хотя исследователи и компании начали переходить от статичных тестов к более динамичным методам оценки, эти новшества решают лишь часть проблемы. Дело в том, что ИИ по-прежнему оценивают вне реальных команд и рабочих процессов, где его эффективность проявляется на самом деле.

ИИ тестируют в вакууме, а применяют в сложных, неоднозначных условиях, где он взаимодействует с несколькими людьми. Его реальная производительность (или её отсутствие) проявляется только со временем. Из-за этого мы неверно оцениваем возможности ИИ, упускаем системные риски и искажаем представление о его экономических и социальных последствиях.

Чтобы исправить ситуацию, пора отказаться от узких тестов и перейти к оценке ИИ в реальных условиях — в командах, процессах и организациях, и на более длительных временных отрезках. С 2022 года я изучаю внедрение ИИ в малом бизнесе и организациях сферы здравоохранения, гуманитарной помощи, некоммерческих и образовательных учреждениях в Великобритании, США и Азии, а также в ведущих экосистемах разработки ИИ в Лондоне и Кремниевой долине. Я предлагаю новый подход, который называю ХАЙК-тестами — оценкой ИИ в контексте человеческой деятельности (Human–AI, Context-Specific Evaluation).

Что происходит, когда ИИ подводит

Для правительств и компаний оценки ИИ выглядят объективнее, чем заявления вендоров. Они помогают решить, достаточно ли хороша модель для реального применения. Представьте, что ИИ показывает впечатляющие результаты в самых передовых тестах — 98% точности, рекордная скорость, убедительные ответы. На этом основании организация решает внедрить систему, вкладывая значительные деньги и ресурсы.

Но затем выясняется, что реальная эффективность сильно отстаёт от заявленной. Например, множество одобренных FDA моделей ИИ способны анализировать медицинские снимки быстрее и точнее, чем радиолог-эксперт. Однако в отделениях рентгенологии больниц — от Калифорнии до окраин Лондона — я видел, как персоналу приходится тратить дополнительное время, чтобы сопоставить выводы ИИ с местными стандартами отчётности и национальными нормами. То, что в тестах выглядело как инструмент для повышения продуктивности, на практике замедляло работу.

Стало ясно: тесты не отражают, как принимаются реальные медицинские решения. Больницы полагаются на мультидисциплинарные команды — радиологов, онкологов, физиков, медсестёр, — которые совместно обсуждают случаи. План лечения редко зависит от одного решения: он меняется по мере поступления новой информации. Решения рождаются в диалоге, где учитываются профессиональные нормы, пожелания пациента и общая цель — долгосрочное выздоровление. Неудивительно, что даже самые точные модели ИИ терпят неудачу, сталкиваясь с реальными, сложными процессами клинической работы.

Та же картина — в других отраслях. Как только ИИ попадает в реальную рабочую среду, его эффективность падает, несмотря на блестящие результаты в стандартизированных тестах.

Когда высокие оценки не подтверждаются на практике, ИИ быстро отправляют в так называемое «кладбище ИИ». Потери огромны: тратятся время, деньги и усилия. А повторяющиеся неудачи подрывают доверие организаций к ИИ — а в критических сферах, таких как здравоохранение, — и общественное доверие к технологии в целом.

Когда тесты дают неполную и вводящую в заблуждение картину, у регуляторов возникают слепые зоны. Контроль строится на метриках, не отражающих реальность. А риски испытаний ИИ в чувствительных условиях ложатся на плечи организаций и правительств, у которых часто нет достаточных ресурсов и поддержки.

Как создавать лучшие тесты

Чтобы сократить разрыв между тестами и реальной эффективностью, нужно оценивать ИИ в тех условиях, где он будет работать. Главные вопросы: может ли ИИ быть полезным участником команды? И приносит ли он устойчивую, коллективную пользу?

В ходе своих исследований я видела, как несколько организаций уже экспериментально переходят к тем самым ХАЙК-тестам, которые я предлагаю.

ХАЙК-тесты меняют подход к оценке ИИ в четырёх аспектах:

Единица анализа — от индивидуальной эффективности к эффективности команды и рабочего процесса
Временной горизонт — от разовых тестов к оценке долгосрочного влияния
Критерии успеха — от точности и скорости к результатам для организации, качеству координации и способности выявлять ошибки
Системные эффекты — от отдельных результатов к последствиям на всех этапах процесса

Первый шаг — изменение единицы анализа. Например, в одной британской больнице в 2021–2024 годах вопрос сместился с «повышает ли ИИ точность диагностики» на «как его присутствие влияет на работу мультидисциплинарной команды». Оценивались не только точность, но и координация, обсуждения, коллективные решения. Участники — как внутри, так и за пределами больницы — определяли метрики: влияет ли ИИ на совместное мышление, помогает ли замечать упущенные аспекты, укрепляет или ослабляет координацию, меняет ли подходы к рискам и соблюдению норм.

Этот сдвиг принципиален. Он особенно важен в критических сферах, где системные эффекты важнее точности отдельной задачи. Он также важен для экономики: помогает пересмотреть завышенные ожидания резкого роста производительности, основанные на улучшении выполнения отдельных операций.

После этого ХАЙК-тесты могут учитывать временной фактор.

Современные тесты похожи на школьные экзамены — разовые, стандартизированные проверки точности. Но профессиональную компетентность оценивают иначе. Молодых врачей и юристов проверяют непрерывно, в реальных процессах, под контролем, с обратной связью. Оценка идёт во времени и в контексте, потому что компетентность — это отношение. Если ИИ должен работать рядом с профессионалами, его влияние нужно оценивать на длинной дистанции, по результатам многократного взаимодействия.

Я видела такой подход в одной из гуманитарных организаций. В течение 18 месяцев ИИ оценивали в реальных процессах, уделяя особое внимание обнаружимости ошибок — насколько легко команда замечает и исправляет их. Такой «длинный» учёт ошибок позволил создать контекстные защитные механизмы и укрепить доверие к системе, несмотря на неизбежные сбои ИИ.

Долгосрочная оценка также выявляет системные последствия, которые упускают краткосрочные тесты. ИИ может превосходить одного врача в узкой диагностике, но не улучшать коллективное принятие решений. Хуже того — он может вводить искажения: привязывать команду к правдоподобным, но неполным ответам, увеличивать когнитивную нагрузку или создавать дополнительные неэффективности, сводя на нет выигрыш во времени. Эти побочные эффекты, невидимые при обычных тестах, ключевые для понимания реального влияния ИИ.

Да, ХАЙК-подход делает тестирование сложнее, затратнее и труднее стандартизировать. Но продолжать оценивать ИИ в идеальных условиях, далёких от реальной работы, — значит не понимать, на что он действительно способен. Чтобы внедрять ИИ ответственно, нужно измерять то, что важно: не только что может модель в одиночку, но и что она даёт — или разрушает — в руках реальных людей и команд.

Читать оригинал

Тесты на ИИ не работают. Вот что нужно вместо них

Что происходит, когда ИИ подводит

Как создавать лучшие тесты

AI benchmarks are broken. Here’s what we need instead.

What happens when AI fails

How to build better tests