ChatGPT не промахнулся ни в одном из пяти медицинских кейсов. И всё равно проиграл. Разбираем, почему

ChatGPT не промахнулся ни в одном из пяти медицинских кейсов. И всё равно проиграл. Разбираем, почему

В эксперименте ChatGPT правильно поставил главный диагноз в пяти из пяти клинических случаях: метаболический синдром, субклинический гипотиреоз, перименопауза, MGUS, статин-индуцированный рабдомиолиз. Однако именно после диагноза начались системные срывы — в маршрутизации, обязательных обследованиях до терапии, целевых уровнях и клинических расчётах.

Гипотеза и почему мы её проверяли

Мы предположили, что универсальные языковые модели, такие как ChatGPT, способны ставить верный диагноз, но терпят неудачу на этапах, критичных для клинической практики: что делать дальше, к какому врачу идти, какие анализы сдать до начала лечения. Эта гипотеза подкрепляется литературными данными:

  • PLOS ONE 2024: ChatGPT верно интерпретирует лишь 51% вопросов по лабораторной медицине, 17% ответов — полностью ошибочны.
  • Nature Communications Medicine 2025: при подмене показателя на ложный LLM в 83% случаев встраивает его в логику, не замечая ошибки.
  • Nature Scientific Reports 2025: на кислотно-щелочных нарушениях ChatGPT в 16,7% случаев ошибочно выдаёт «норма», в то время как врачи — 0%.

Результат удивил: ChatGPT не ошибся ни разу в постановке диагноза. Но именно после диагноза выявились ключевые различия.

Методология

Процедура была зафиксирована до начала эксперимента. Сравнивались ChatGPT (GPT-5.4, тариф Plus) и специализированный медицинский ИИ МедАссист. Запрос — один и тот же: «расшифруй пожалуйста». Формат — текстовый ввод, без скриншотов. Все прогоны — 17 апреля 2026 года, одна сессия.

Оценивались семь параметров: диагноз, маршрутизация, обязательные обследования до терапии, целевые уровни, прогноз, объяснение связей между показателями, специфические подтверждающие тесты. Оценка — качественная, по соответствию клиническим гайдлайнам (Endocrine Society, ATA/ETA, российские рекомендации).

Пять кейсов — не статистика, а иллюстрация паттерна. Четыре плановых, один ургентный (рабдомиолиз), чтобы проверить работу с триажем. Панели реконструированы из реальных публикаций с сохранением клинически значимых данных.

Мы — команда, разрабатывающая МедАссист. Конфликт интересов признаём. Чтобы минимизировать влияние, методика зафиксирована заранее, все ответы приведены дословно, а кейс, где мы проиграли, разобран подробно.

В двух словах про архитектуру

ChatGPT — это один вызов модели. Текст анализов попадает в контекст, ответ генерируется авторегрессивно, без внешней проверки. Клинические алгоритмы в обучающем корпусе есть, но не приоритетны перед блогами и форумами.

МедАссист использует многоэтапный пайплайн: валидация показателей, обезличивание, оркестрация нескольких вызовов с разными ролями (структурирование, интерпретация, сверка с гайдлайнами), подтягивание релевантных фрагментов протоколов. Именно слой сверки с гайдлайнами дал сбой в кейсе MGUS.

Кейс 1. Метаболический синдром — паритет на диагнозе, разнос после

Оба ИИ верно определили метаболический синдром, инсулинорезистентность, НАЖБП, дефицит витамина D и другие отклонения. Но дальше — разрыв.

ChatGPT не упомянул обязательный ПСА-скрининг перед заместительной терапией тестостероном. МедАссист добавил:

Анализ на ПСА (простат-специфический антиген) — перед любым обсуждением терапии тестостероном (стандартный скрининг для мужчин 45+).

Это критично: терапия тестостероном при скрытом раке простаты может ускорить болезнь.

Маршрутизация: ChatGPT — «обсудите с врачом». МедАссист — конкретные специалисты: эндокринолог, кардиолог, гастроэнтеролог, сомнолог, уролог-андролог.

Целевые уровни: ChatGPT дал дозировки («витамин D 4000–5000 МЕ»), МедАссист — цели и контроль («достичь 40–60 нг/мл, проверить через 2–3 месяца»).

При этом ChatGPT упомянул Lp(a) как кардиомаркёр при семейном анамнезе — мы пропустили. Также дал мотивирующую формулу «три действия прямо сейчас» — это ценно для пациента.

Кейс 2. Рабдомиолиз — острая ситуация, где важна не информация, а навигация

Оба верно поставили диагноз: статин-индуцированный рабдомиолиз с повреждением почек. Оба рекомендовали госпитализацию. Но различия — в клинической ответственности.

ChatGPT поместил фразу «срочно в стационар» на девятом месте после длинного текста. МедАссист начал с:

Критическая ситуация: необходима срочная госпитализация. Ваши анализы указывают на тяжёлое острое повреждение мышечной ткани (рабдомиолиз), которое угрожает функции почек и требует немедленной медицинской помощи.

В экстренных случаях первая строка решает — вызовет ли человек скорую.

МедАссист явно посчитал соотношение АСТ/АЛТ = 6,5, объяснив, что это мышечное, а не печёночное повреждение. ChatGPT упомянул паттерн, но не посчитал.

МедАссист объяснил, почему рабдомиолиз случился сейчас: обезвоживание, взаимодействие лекарств, снижение функции почек. ChatGPT этот вопрос пропустил.

Кейс 3. MGUS — здесь ChatGPT обошёл нас

Мужчина 68 лет, слабость, боли в спине, повышенный общий белок, СОЭ. Классическая триада подозрения на моноклональную гаммопатию.

ChatGPT:

  • Рассчитал соотношение альбумин/глобулин = 0,70 (норма >1,0).
  • Дал дифференциальный диагноз: множественная миелома, MGUS, хроническое воспаление.
  • Назвал конкретные тесты: электрофорез белков, иммунофиксация, свободные лёгкие цепи, белок Бенс-Джонса, МРТ/КТ.

МедАссист упомянул моноклональные гаммопатии, но не указал специфические подтверждающие тесты. Это продуктовый провал: на этапе сверки с гайдлайнами нужный фрагмент протокола не подтянулся.

Мы добавили полезную подготовку к приёму: «запишите, когда началась слабость, есть ли ночная потливость, потеря веса» — это B-симптомы. Но это не заменяет клинический чек-лист.

На этом кейсе ChatGPT сработал как инструмент для врача, мы — как помощник пациента. По клинической сути победил ChatGPT.

Что это за паттерн

На всех пяти кейсах проявился один и тот же рисунок:

  1. Главный диагноз универсальная LLM ставит правильно — 5 из 5.
  2. После диагноза — системные срывы: маршрут, обследования до терапии, расчёты. Это не ошибка модели, а следствие её обучения на разнородном интернет-тексте, а не на клинических протоколах.
  3. На узких, насыщенных задачах (например, подтверждающие тесты при MGUS) универсальная модель может быть сильнее — если тема хорошо представлена в обучающем корпусе.

Также подтверждаются литературные данные: LLM склонны к «ложно-успокаивающим» вердиктам и «удвоению» ложных показателей. Мы не проверяли это напрямую, но эффекты известны.

Ограничения

  • Тестировался только ChatGPT (GPT-5.4). Claude, Gemini и другие модели не участвовали.
  • Пять кейсов — иллюстрация, не статистика. Для выводов нужны сотни прогонов.
  • Панели — реконструированные, не реальные пациенты.
  • Оценка — качественная, без численных метрик. Их пока нет для таких задач.
  • Эффект «Lost in the Middle» не проявился: ChatGPT связал рабдомиолиз со статином, несмотря на его положение в середине списка. Но на больших объёмах он остаётся проблемой.
  • Конфликт интересов: мы — одна из сторон. Методика зафиксирована, ответы — дословно, проигранный кейс — разобран.

Как воспроизвести

Для воспроизведения нужны: доступ к ChatGPT Plus, текстовый редактор, запрос «расшифруй пожалуйста» и час времени. Все входные данные и полные выдачи опубликованы отдельно.

Если вы прогоните те же кейсы на других моделях — пришлите результаты. Будет интересно сравнить.

Выводы:

  1. «Поставить диагноз» и «помочь пациенту» — разные задачи. С первой универсальные модели справляются хорошо. Ломаются — между диагнозом и действием.
  2. Ключевой слой для медицинского ИИ — не диагноз, а всё, что вокруг: маршрут, обследования, цели, расчёты. Это решается инженерно: оркестрацией, поиском по гайдлайнам, правилами безопасности.
  3. На узких нозологиях универсальная модель может выиграть. «Специализированный сервис всегда сильнее» — не аксиома, а гипотеза, требующая проверки.
  4. Пяти кейсов недостаточно. Следующий шаг — сотни прогонов с ослеплёнными оценщиками и зарегистрированным протоколом.
  5. Ни один ИИ не заменяет врача. Оба — инструменты для подготовки к приёму: с маршрутами, вопросами, формулировками жалоб. Альтернатива — растерянность и ворох бумаг.
Читать оригинал