ISTQB обновил сертификацию AI Testing до v2.0. Что изменилось и чего там всё ещё не хватает

ISTQB обновил сертификацию AI Testing до v2.0. Что изменилось и чего там всё ещё не хватает

ISTQB выпустил новую версию сертификации CT-AI v2.0 — серьёзное обновление по сравнению с версией 2021 года. Оно отражает изменения в мире искусственного интеллекта, особенно после взлёта GenAI, LLM и агентных систем.

Что изменилось: фокус стал чётче

Ранняя версия CT-AI пыталась охватить сразу несколько направлений: как тестировать AI-системы, как использовать AI в тестировании и как устроено машинное обучение. В итоге syllabus получился широким, но размытым.

В v2.0 фокус сузился: теперь это сертификация исключительно про тестирование AI-систем. Раздел «Использование AI в тестировании» убран — для него появилась отдельная программа ISTQB CT Testing with Generative AI.

Это важный шаг: «AI for testing» и «testing AI» — разные компетенции. Одно дело — использовать LLM для генерации тест-кейсов, другое — тестировать системы с вероятностным поведением, галлюцинациями и дрейфом данных.

Структура стала логичнее: 11 глав → 7

В v1.0 было 11 глав, в v2.0 — 7. Новая структура лучше отражает жизненный цикл ML-систем:

  1. Введение в ИИ
  2. Качественные характеристики AI-систем
  3. Машинное обучение
  4. Тестирование AI-систем
  5. Тестирование входных данных
  6. Тестирование моделей
  7. Тестирование разработки и развёртывания ML-систем

Теперь syllabus выглядит не как обзор, а как прикладное руководство: где и как ломаются реальные AI-системы.

GenAI и LLM наконец вошли в программу

В v1.0, выпущенной в 2021 году, GenAI почти не упоминался. В v2.0 он стал центральной темой.

Теперь в программе есть:

  • Generative AI и Large Language Models
  • Тестирование GenAI
  • Red teaming
  • Exploratory testing LLM
  • Fine-tuning
  • Retrieval-Augmented Generation (RAG)

Появился практический пример: исследовательское тестирование LLM с использованием boundary value analysis. Это уже ближе к реальным enterprise-сценариям.

Сильнее выделены тестирование данных и моделей

В v2.0 появились отдельные главы:

  • Тестирование входных данных: проверка смещений, репрезентативности, целостности разметки, pipeline и ограничений наборов данных.
  • Тестирование моделей: функциональные метрики, adversarial testing, metamorphic testing, drift, A/B testing, back-to-back testing, переобучение и недообучение.

Это отражает реальность: проблемы в AI-системах чаще начинаются не с модели, а с данных, pipeline или разметки.

Меньше внимания метрикам ML

Фокус на accuracy, precision, recall и F1-score ослаблен — и это правильно. Высокая метрика не гарантирует качество системы. Можно иметь отличный F1, но:

  • ошибаться на критичных сценариях
  • дискриминировать группы пользователей
  • уверенно галлюцинировать
  • ломаться на изменённых входах
  • плохо решать реальную задачу пользователя

CT-AI v2.0 подчёркивает: тестирование AI — это не только метрики, а оценка поведения в сложных условиях.

Quality characteristics стали компактнее

Блок про качественные характеристики сократили и привели к стандарту ISO/IEC 25059. Это повысило согласованность, но сократило пространство для обсуждения этики, безопасности и explainability.

Для базовой сертификации это оправдано, но в реальных проектах эти темы требуют глубокой проработки.

Что стало лучше

CT-AI v2.0 — значительный шаг вперёд:

  • Актуальные темы: GenAI, LLM, RAG
  • Чёткий фокус: только testing AI, не AI for testing
  • Логичная структура вокруг ML lifecycle
  • Внимание к probabilistic behavior, test oracle problem и statistical testing

Это помогает тестировщикам перейти от mindset «ожидаемый результат» к пониманию, что в AI нет стабильного oracle, а качество оценивается статистически.

Чего всё ещё не хватает

Несмотря на улучшения, v2.0 не покрывает все вызовы современных AI-систем.

1. Agentic AI почти не раскрыт

Агенты, которые планируют, вызывают инструменты и действуют от имени пользователя, — ключевой тренд. Но в syllabus мало о:

  • проверке планирования задач
  • зацикливании
  • восстановлении после ошибок
  • контроле действий
  • где требуется human approval

OWASP уже выделяет agentic AI как отдельную область рисков.

2. Tool calling и права доступа — почти пустота

Сейчас модель может не просто отвечать, а выполнять действия: создавать тикеты, отправлять email, вызывать API. Это требует тестирования:

  • least privilege
  • проверки прав доступа
  • логирования действий
  • защиты от prompt injection
  • контроля косвенного доступа через документы и комментарии

OWASP называет такие риски критичными, но в CT-AI v2.0 они не выделены.

3. Слабо раскрыта observability и мониторинг

В production нужно отслеживать:

  • реальные промпты и контекст
  • вызовы инструментов
  • стоимость и задержки запросов
  • hallucinations и refusals
  • деградацию сценариев после обновлений

Drift testing есть, но полноценной системы observability, tracing и runtime evaluation — нет. А в enterprise это уже must-have.

4. Memory risks почти не затронуты

Память в AI-системах — источник новых рисков:

  • отравление памяти
  • утечка данных
  • неправильные ассоциации
  • недостаточная изоляция между пользователями

Для агентов это особенно опасно. OWASP выделяет memory poisoning как ключевую угрозу — в CT-AI v2.0 об этом почти нет.

5. Мало про системное тестирование

Syllabus всё ещё смотрит на AI как на ML-модель: данные → модель → метрики. Но реальные продукты требуют оценки на уровне всей системы:

  • решает ли пользователь задачу до конца
  • насколько часто нужен человек
  • качество многошаговых сценариев
  • работа fallback-механизмов
  • возможность расследования инцидентов

Это уже не качество модели, а качество продукта, процесса и операций. В v2.0 этот уровень пока слабо представлен.

Итог: шаг в правильном направлении

CT-AI v2.0 стал:

  • короче
  • структурированнее
  • актуальнее
  • ближе к реальным задачам тестирования AI

Это хорошая база. Но не полная инструкция.

Если вы работаете с LLM, RAG или агентами, syllabus нужно дополнять:

  • тестированием агентов
  • проверкой tool calling и permissions
  • оценкой памяти и observability
  • системным подходом к качеству
  • проверкой prompt injection и runtime рисков

Сертификация не обязана охватывать весь хаос индустрии. Но она должна задавать правильные вопросы. В этом смысле v2.0 — шаг вперёд по сравнению с v1.0.

Читать оригинал