ИИ в медицине повсюду — но насколько это безопасно?

В начале этого месяца Microsoft запустила Copilot Health — новую функцию в своём ИИ-ассистенте, где пользователи могут подключить медицинские записи и задавать вопросы о здоровье. За пару дней до этого Amazon объявил, что его Health AI, ранее доступный только клиентам сервиса One Medical, теперь открыт для всех. К ним присоединились ЧатГПТ (ChatGPT) Health от ОпенЭйАй (OpenAI) и Клод (Claude) от Anthropic, который тоже может работать с медицинскими данными. ИИ в здравоохранении стал мейнстримом.

Спрос на такие чат-боты понятен: многим людям сложно получить квалифицированную помощь через традиционные медицинские системы. Некоторые исследования показывают, что современные большие языковые модели (LLM) способны давать безопасные и полезные рекомендации. Однако эксперты настаивают: такие инструменты нужно тщательно проверять — и делать это должны независимые исследователи, а не сами компании.

В столь серьёзной сфере, как здоровье, нельзя слепо доверять саморегуляции. Даже если компания проводит качественные тесты — как, например, ОпенЭйАй — у неё всё равно могут быть слепые зоны. Внешняя экспертиза помогла бы их выявить.

«Пока медицинской помощи не хватает, мы должны пробовать всё, что может помочь, — говорит Эндрю Бин (Andrew Bean), аспирант Оксфордского интернет-института. — Совершенно реально, что модели уже готовы к внедрению. Но доказательная база должна быть надёжной».

Точка перелома

Разработчики утверждают: технологии дошли до уровня, когда ИИ действительно может помогать в медицине. Доминик Кинг (Dominic King), вице-президент Microsoft по здравоохранению и бывший хирург, называет прогресс в генеративном ИИ главной причиной появления Copilot Health. «Мы видим колоссальный рост возможностей ИИ отвечать на медицинские вопросы и давать качественные ответы», — говорит он.

Но не только технологии. Второй фактор — спрос. Microsoft опубликовала отчёт: ежедневно через Copilot задают 50 миллионов медицинских вопросов. Это самая популярная тема в мобильном приложении.

Другие компании тоже это заметили. «Ещё до запуска наших продуктов мы увидели резкий рост числа медицинских запросов в ЧатГПТ», — говорит Каран Сингхал (Karan Singhal), руководитель команды здравоохранения в ОпенЭйАй. (Напомним: Copilot работает на моделях ОпенЭйАй.)

Люди могут просто предпочитать общаться с нейтральным ботом, доступным 24/7. Но многие эксперты видят более глубокую причину. «Такие инструменты появляются не просто так, — говорит Гириш Надкарни (Girish Nadkarni), главный специалист по ИИ в медицинской системе Маунт Синай. — Доступ к врачам ограничен, особенно для уязвимых групп».

Идея проста: если ИИ поможет людям понять, нужна ли им срочная помощь, это снизит нагрузку на системы здравоохранения. Например, бот мог бы направить в больницу тех, кто действительно в этом нуждается, и посоветовать остальным остаться дома — не перегружая приёмные отделения.

Но недавнее исследование Надкарни и его коллег показало: ЧатГПТ Health иногда рекомендует избыточное лечение при лёгких симптомах и не распознаёт настоящие экстренные случаи. Хотя Сингхал и другие специалисты критикуют методологию исследования, оно подняло важный вопрос: почему такие инструменты выходят на рынок без независимой проверки?

Риски и предупреждения

Практически все опрошенные эксперты согласны: ИИ может быть полезен, особенно там, где нет доступа к врачам. Но все шестеро выразили обеспокоенность: инструменты запускаются без независимых тестов на безопасность.

Некоторые функции — например, советы по упражнениям или вопросы к врачу — относительно безвредны. Но другие — диагностика, лечение, триаж — несут риски.

Интерфейс ЧатГПТ Health содержит предупреждение: «Не для диагностики и лечения». Microsoft и Amazon делают аналогичные оговорки. Но, как говорит Адам Родман (Adam Rodman), врач и исследователь из Бет Израэль, «все знают, что люди будут использовать это именно для диагностики».

Как тестируют ИИ?

Компании утверждают, что тестируют свои боты. ОпенЭйАй разработала HealthBench — набор тестов, оценивающих, как ИИ ведёт себя в медицинских диалогах. При запуске GPT-5 компания сообщила: модель показала значительный прогресс, хотя и не идеальна.

Но у таких тестов есть недостатки. В исследовании Бина и его коллег выяснилось: даже если ИИ правильно определяет болезнь по описанию, обычный пользователь с его помощью делает это лишь в трети случаев. Без медицинского образования человек может не указать важные детали или неправильно понять ответ.

Бин отмечает: в оригинальном тесте HealthBench модели ОпенЭйАй плохо справлялись с запросами дополнительной информации. А это критично: если пользователь не знает, что важно рассказать, бот может дать ошибочный совет.

Сингхал говорит, что новые версии GPT-5 лучше запрашивают контекст. Однако сама ОпенЭйАй сообщала, что GPT-5.4 хуже справляется с этим, чем более ранняя версия GPT-5.2.

Бин считает, что перед запуском такие боты нужно тестировать с реальными людьми. Но это долго — а в мире ИИ всё движется быстро. Его собственное исследование использовало GPT-4o, который вышел почти год назад и уже устарел.

Пример от Google

На этот стандарт потянул Google. В недавнем исследовании пациенты общались с AMIE (Articulate Medical Intelligence Explorer) — медицинским ИИ, пока недоступным публике — перед приёмом у врача. Диагнозы AMIE оказались не хуже врачебных, и серьёзных проблем выявлено не было.

Но Google не спешит выпускать AMIE. «Перед внедрением нужно решить вопросы справедливости, равного доступа и безопасности», — написал в письме Алан Картикизалингам (Alan Karthikesalingam) из Google DeepMind.

Правда, Google недавно объявил, что в платформе Health100 (в партнёрстве с CVS) будет ИИ-ассистент на базе Gemini. Правда, вряд ли он займётся диагностикой.

Родман, который работал над AMIE, считает, что масштабные клинические испытания не всегда уместны для ИИ. «Модель быстро меняется, — говорит он. — Нужны независимые бенчмарки, которым все доверяют».

Кто должен проверять?

Ключевое слово — «независимые». Даже самые тщательные внутренние тесты не вызывают полного доверия. Сторонняя оценка даёт объективность и помогает избежать слепых зон.

Сингхал поддерживает внешнюю экспертизу: «Мы стараемся помогать сообществу. Именно поэтому мы опубликовали HealthBench — как образец качественной оценки».

Он сомневается, что академические лаборатории смогут создать «главный тест», учитывая стоимость таких разработок. Но хвалит инициативы вроде MedHELM от Стэнфорда — комплексной системы оценки медицинских ИИ. Сейчас GPT-5 — лидер по MedHELM.

Нигам Шах (Nigam Shah), руководитель проекта MedHELM, признаёт: система имеет ограничения. Она оценивает отдельные ответы, а не диалоги. «Мы работаем над тестом для многораундовых обсуждений, но это требует времени и денег, — говорит он. — Мы не можем остановить компании. Остаётся одно: найти финансирование для достойного бенчмарка».

Никто из экспертов не требует, чтобы медицинские ИИ были безупречны. Врачи тоже ошибаются. Для человека, который редко видит доктора, доступный ИИ с редкими ошибками может стать улучшением. Главное — чтобы ошибки не были фатальными.

Но сейчас невозможно сказать наверняка: действительно ли эти инструменты полезны, или их риски перевешивают пользу.

Читать оригинал