Доступность искусственного интеллекта (ИИ) для использования в войне является центральной темой в юридической битве между компанией Антропик (Anthropic) и Пентагоном. Этот спор стал срочным, поскольку ИИ играет более значительную роль, чем когда-либо прежде, в текущем конфликте с Ираном. ИИ больше не просто помогает людям анализировать разведданные. Теперь он является активным участником — генерирует цели в реальном времени, контролирует и координирует перехваты ракет, и направляет смертоносные рои автономных беспилотников.
Большая часть общественного разговора о использовании автономных летальных вооружений, управляемых ИИ, сосредоточена на том, как много людей должны оставаться «в цикле». Согласно текущим руководящим принципам Пентагона, человеческий надзор якобы обеспечивает подотчетность, контекст и нюансы, снижая риск взлома.
Системы ИИ — непрозрачные «черные ящики»
Но спор о «людях в цикле» — это утешительная отвлекающая маневр. Немедленная опасность заключается не в том, что машины будут действовать без человеческого надзора; она заключается в том, что человеческие надзиратели не имеют представления о том, что машины на самом деле «думают». Руководящие принципы Пентагона фундаментально ошибочны, поскольку они основаны на опасном предположении, что люди понимают, как работают системы ИИ.
Изучая намерения в человеческом мозге на протяжении десятилетий и в системах ИИ в последнее время, я могу подтвердить, что современные системы ИИ по сути являются «черными ящиками». Мы знаем входные и выходные данные, но искусственный «мозг», обрабатывающий их, остается непрозрачным. Даже их создатели не могут полностью интерпретировать их или понять, как они работают. И когда ИИ предоставляет причины, они не всегда заслуживают доверия.
Иллюзия человеческого надзора в автономных системах
В споре о человеческом надзоре фундаментальный вопрос остается без ответа: можем ли мы понять, что система ИИ намерена сделать, прежде чем она действует?
Представьте себе автономный беспилотник, задача которого — уничтожить вражеский завод по производству боеприпасов. Автоматизированная система управления определяет, что оптимальной целью является склад боеприпасов. Она сообщает о 92% вероятности успеха миссии, поскольку вторичные взрывы боеприпасов в здании полностью уничтожат объект. Человеческий оператор проверяет законную военную цель, видит высокий уровень успеха и одобряет удар.
Но то, чего оператор не знает, — это то, что расчет системы ИИ включал скрытый фактор: помимо разрушения завода боеприпасов, вторичные взрывы также серьезно повредят ближайшую детскую больницу. Служба экстренного реагирования будет сосредоточена на больнице, обеспечивая сгорание завода. Для ИИ максимизация нарушений таким образом соответствует заданной цели. Но для человека это потенциально является военным преступлением, нарушающим правила относительно гражданской жизни.
Сохранение человека в цикле может не обеспечить ту гарантию, которую люди себе представляют, поскольку человек не может знать намерения ИИ до его действия. Продвинутые системы ИИ не просто выполняют инструкции; они интерпретируют их. Если операторы не определяют свои цели достаточно тщательно — что является высоковероятным сценарием в ситуациях высокого давления — «черный ящик» системы может делать именно то, что было сказано, и все же не действовать так, как люди намеревались.
Этот «разрыв намерений» между системами ИИ и человеческими операторами является именно той причиной, по которой мы колеблемся в развертывании передовых «черных ящиков» ИИ в гражданском здравоохранении или управлении воздушным движением, и почему их интеграция на рабочем месте остается проблематичной — но мы спешим развернуть его на поле боя.
Чтобы сделать дела хуже, если одна сторона в конфликте развертывает полностью автономные вооружения, которые работают на скорости машины и масштабе, давление на то, чтобы остаться конкурентоспособными, заставит другую сторону полагаться на такие вооружения тоже. Это означает, что использование все более автономных — и непрозрачных — решений ИИ в войне, скорее всего, будет только расти.
Решение: Продвинуть науку об намерениях ИИ
Наука об ИИ должна включать в себя как построение высококачественных технологий ИИ, так и понимание того, как эта технология работает. Были сделаны огромные шаги в разработке и создании более способных моделей, обусловленные рекордными инвестициями — прогнозируемыми компанией Гарнер (Gartner) в размере около 2,5 триллионов долларов в 2026 году. Напротив, инвестиции в понимание того, как работает технология, были минимальными.
Нам нужен огромный сдвиг парадигмы. Инженеры строят все более способные системы. Но понимание того, как эти системы работают, — это не только проблема инженерии — это требует междисциплинарных усилий. Нам нужно построить инструменты для характеристики, измерения и вмешательства в намерения агентов ИИ до их действия. Нам нужно создать карту внутренних путей нейронных сетей, которые управляют этими агентами, чтобы мы могли построить истинное причинно-следственное понимание их принятия решений, перейдя за пределы простого наблюдения входных и выходных данных.
Перспективным способом вперед является сочетание техник механистической интерпретируемости (разбиение нейронных сетей на понятные человеку компоненты) с идеями, инструментами и моделями из нейробиологии намерений. Другой идеей является разработка прозрачных, интерпретируемых «аудиторских» ИИ, предназначенных для мониторинга поведения и возникающих целей более способных «черных ящиков» систем в реальном времени.
Разработка лучшего понимания того, как функционируют системы ИИ, позволит нам полагаться на системы ИИ для критически важных приложений. Это также сделает более простым построение более эффективных, способных и безопасных систем.
Коллеги и я исследуем, как идеи из нейробиологии, когнитивной науки и философии — области, которые изучают, как возникают намерения в человеческом принятии решений, — могут помочь нам понять намерения искусственных систем. Нам нужно уделять приоритетное внимание этим междисциплинарным усилиям, включая сотрудничество между академией, правительством и промышленностью.
Однако нам нужно больше, чем просто академическое исследование. Технологическая промышленность — и филантропы, финансирующие выравнивание ИИ, которое стремится закодировать человеческие ценности и цели в этих моделях, — должны направить существенные инвестиции в направлении междисциплинарных исследований интерпретируемости. Кроме того, поскольку Пентагон преследует все более автономные системы, Конгресс должен обязать проводить тщательное тестирование намерений систем ИИ, а не только их производительности.
Пока мы не достигнем этого, человеческий надзор за ИИ может быть более иллюзией, чем гарантией.