На протяжении десятилетий искусственный интеллект (artificial intelligence, AI) оценивали по одному критерию: превосходит ли он человека. От шахмат до математики, от программирования до написания эссе — способности ИИ тестируют в соревновании с людьми, выполняющими отдельные задачи.
Такой подход заманчив: сравнение ИИ и человека по чётким, однозначным задачам легко стандартизировать, сопоставлять и оптимизировать. Оно порождает рейтинги и громкие заголовки.
Но есть проблема: ИИ почти никогда не используется так, как его тестируют. Хотя исследователи и компании начали переходить от статичных тестов к более динамичным методам оценки, эти новшества решают лишь часть проблемы. Дело в том, что ИИ по-прежнему оценивают вне реальных команд и рабочих процессов, где его эффективность проявляется на самом деле.
ИИ тестируют в вакууме, а применяют в сложных, неоднозначных условиях, где он взаимодействует с несколькими людьми. Его реальная производительность (или её отсутствие) проявляется только со временем. Из-за этого мы неверно оцениваем возможности ИИ, упускаем системные риски и искажаем представление о его экономических и социальных последствиях.
Чтобы исправить ситуацию, пора отказаться от узких тестов и перейти к оценке ИИ в реальных условиях — в командах, процессах и организациях, и на более длительных временных отрезках. С 2022 года я изучаю внедрение ИИ в малом бизнесе и организациях сферы здравоохранения, гуманитарной помощи, некоммерческих и образовательных учреждениях в Великобритании, США и Азии, а также в ведущих экосистемах разработки ИИ в Лондоне и Кремниевой долине. Я предлагаю новый подход, который называю ХАЙК-тестами — оценкой ИИ в контексте человеческой деятельности (Human–AI, Context-Specific Evaluation).
Что происходит, когда ИИ подводит
Для правительств и компаний оценки ИИ выглядят объективнее, чем заявления вендоров. Они помогают решить, достаточно ли хороша модель для реального применения. Представьте, что ИИ показывает впечатляющие результаты в самых передовых тестах — 98% точности, рекордная скорость, убедительные ответы. На этом основании организация решает внедрить систему, вкладывая значительные деньги и ресурсы.
Но затем выясняется, что реальная эффективность сильно отстаёт от заявленной. Например, множество одобренных FDA моделей ИИ способны анализировать медицинские снимки быстрее и точнее, чем радиолог-эксперт. Однако в отделениях рентгенологии больниц — от Калифорнии до окраин Лондона — я видел, как персоналу приходится тратить дополнительное время, чтобы сопоставить выводы ИИ с местными стандартами отчётности и национальными нормами. То, что в тестах выглядело как инструмент для повышения продуктивности, на практике замедляло работу.
Стало ясно: тесты не отражают, как принимаются реальные медицинские решения. Больницы полагаются на мультидисциплинарные команды — радиологов, онкологов, физиков, медсестёр, — которые совместно обсуждают случаи. План лечения редко зависит от одного решения: он меняется по мере поступления новой информации. Решения рождаются в диалоге, где учитываются профессиональные нормы, пожелания пациента и общая цель — долгосрочное выздоровление. Неудивительно, что даже самые точные модели ИИ терпят неудачу, сталкиваясь с реальными, сложными процессами клинической работы.
Та же картина — в других отраслях. Как только ИИ попадает в реальную рабочую среду, его эффективность падает, несмотря на блестящие результаты в стандартизированных тестах.
Когда высокие оценки не подтверждаются на практике, ИИ быстро отправляют в так называемое «кладбище ИИ». Потери огромны: тратятся время, деньги и усилия. А повторяющиеся неудачи подрывают доверие организаций к ИИ — а в критических сферах, таких как здравоохранение, — и общественное доверие к технологии в целом.
Когда тесты дают неполную и вводящую в заблуждение картину, у регуляторов возникают слепые зоны. Контроль строится на метриках, не отражающих реальность. А риски испытаний ИИ в чувствительных условиях ложатся на плечи организаций и правительств, у которых часто нет достаточных ресурсов и поддержки.
Как создавать лучшие тесты
Чтобы сократить разрыв между тестами и реальной эффективностью, нужно оценивать ИИ в тех условиях, где он будет работать. Главные вопросы: может ли ИИ быть полезным участником команды? И приносит ли он устойчивую, коллективную пользу?
В ходе своих исследований я видела, как несколько организаций уже экспериментально переходят к тем самым ХАЙК-тестам, которые я предлагаю.
ХАЙК-тесты меняют подход к оценке ИИ в четырёх аспектах:
- Единица анализа — от индивидуальной эффективности к эффективности команды и рабочего процесса
- Временной горизонт — от разовых тестов к оценке долгосрочного влияния
- Критерии успеха — от точности и скорости к результатам для организации, качеству координации и способности выявлять ошибки
- Системные эффекты — от отдельных результатов к последствиям на всех этапах процесса
Первый шаг — изменение единицы анализа. Например, в одной британской больнице в 2021–2024 годах вопрос сместился с «повышает ли ИИ точность диагностики» на «как его присутствие влияет на работу мультидисциплинарной команды». Оценивались не только точность, но и координация, обсуждения, коллективные решения. Участники — как внутри, так и за пределами больницы — определяли метрики: влияет ли ИИ на совместное мышление, помогает ли замечать упущенные аспекты, укрепляет или ослабляет координацию, меняет ли подходы к рискам и соблюдению норм.
Этот сдвиг принципиален. Он особенно важен в критических сферах, где системные эффекты важнее точности отдельной задачи. Он также важен для экономики: помогает пересмотреть завышенные ожидания резкого роста производительности, основанные на улучшении выполнения отдельных операций.
После этого ХАЙК-тесты могут учитывать временной фактор.
Современные тесты похожи на школьные экзамены — разовые, стандартизированные проверки точности. Но профессиональную компетентность оценивают иначе. Молодых врачей и юристов проверяют непрерывно, в реальных процессах, под контролем, с обратной связью. Оценка идёт во времени и в контексте, потому что компетентность — это отношение. Если ИИ должен работать рядом с профессионалами, его влияние нужно оценивать на длинной дистанции, по результатам многократного взаимодействия.
Я видела такой подход в одной из гуманитарных организаций. В течение 18 месяцев ИИ оценивали в реальных процессах, уделяя особое внимание обнаружимости ошибок — насколько легко команда замечает и исправляет их. Такой «длинный» учёт ошибок позволил создать контекстные защитные механизмы и укрепить доверие к системе, несмотря на неизбежные сбои ИИ.
Долгосрочная оценка также выявляет системные последствия, которые упускают краткосрочные тесты. ИИ может превосходить одного врача в узкой диагностике, но не улучшать коллективное принятие решений. Хуже того — он может вводить искажения: привязывать команду к правдоподобным, но неполным ответам, увеличивать когнитивную нагрузку или создавать дополнительные неэффективности, сводя на нет выигрыш во времени. Эти побочные эффекты, невидимые при обычных тестах, ключевые для понимания реального влияния ИИ.
Да, ХАЙК-подход делает тестирование сложнее, затратнее и труднее стандартизировать. Но продолжать оценивать ИИ в идеальных условиях, далёких от реальной работы, — значит не понимать, на что он действительно способен. Чтобы внедрять ИИ ответственно, нужно измерять то, что важно: не только что может модель в одиночку, но и что она даёт — или разрушает — в руках реальных людей и команд.