Почему ИИ в биологии рискует порождать системные галлюцинации

Почему ИИ в биологии рискует порождать системные галлюцинации

В биологических исследованиях уверенность нейросетей зачастую опережает реальное научное понимание. Это создаёт иллюзию прогресса, но на деле может приводить к системным ошибкам. Как избежать ловушек при применении ИИ в науке — разбор на примерах.

Успех AlphaFold: не только заслуга алгоритмов

Главный прорыв ИИ в биологии — AlphaFold. Однако его успех не сводится к мощным нейросетям. Модель опирается на Protein Data Bank (PDB), базу данных, собираемую с 1970-х годов.

Ключевую роль сыграл конкурс CASP, где десятилетиями эксперты проверяли точность предсказаний структур белков. Без строгих стандартов верификации даже самые производительные GPU не дали бы достоверных результатов.

Сегодня многие команды применяют ИИ в условиях, когда данных недостаточно или они низкокачественны. В медицине, например, электронные медкарты часто считаются золотой жилой. Но настоящие прорывы требуют новых биомаркеров и лабораторных исследований, которые остаются недофинансированными.

Ложная точность: пример из Nature Communications

В одной из публикаций Nature Communications нейросеть предсказывала функции ферментов на основе 22 миллионов последовательностей. На первый взгляд — идеальная модель: качественное обучение, валидация, тестирование.

Однако микробиолог Валери де Креси-Лагар обнаружила ошибки. Для ферментов, которые она изучала более 10 лет, модель выдала заведомо неверные результаты. Аудит выявил системные проблемы:

  • Data Leakage: 135 якобы новых ферментов уже присутствовали в известных базах. Модель не предсказывала — она просто распознавала.
  • Биологическая абсурдность: модели приписывали бактериям, например E. coli, способность синтезировать вещества, которые они физически производить не могут.
  • Переобучение: 12 разным ферментам была ошибочно присвоена одна и та же узкая функция.

Показатели точности могут быть безупречными, но результат — биологически бессмысленный. Без глубокой экспертной проверки такие ошибки проходят через рецензирование и закрепляются как научные факты.

Каскады ошибок в данных

Систематические смещения в данных приводят к каскадным искажениям. Пример — приложение Zoe для отслеживания COVID-19. Оно не включало в чек-лист симптомы длительного ковида, такие как усталость и «туман в голове».

Люди с этими симптомами переставали отмечаться в приложении. Алгоритм интерпретировал это как выздоровление, искажая статистику.

Другая проблема — объединение биологических путей из разных источников в одну модель. В результате получается схема, невозможная в реальной клетке. Это интерполяция в пустоте: ИИ соединяет точки, не понимая причинно-следственных связей.

Что стоит учитывать разработчикам

При работе в сложных научных областях важно помнить:

  • Понимание механизма важнее архитектуры. Инвестиции в научную основу эффективнее, чем погоня за SOTA-моделями. ИИ не создаст новую парадигму без участия экспертов.
  • Чёткая спецификация данных. Необходимо фиксировать происхождение данных, их ограничения и границы применимости.

ИИ в науках — мощный, но вторичный инструмент. Без качественной лабораторной базы и вовлечения профильных учёных на всех этапах мы рискуем построить целую индустрию на фундаменте из статистических ошибок.

Читать оригинал