ISTQB обновил сертификацию AI Testing до v2.0. Что изменилось и чего там всё ещё не хватает

Habr AI 24 апр 2026

ISTQB выпустил новую версию сертификации CT-AI v2.0 — серьёзное обновление по сравнению с версией 2021 года. Оно отражает изменения в мире искусственного интеллекта, особенно после взлёта GenAI, LLM и агентных систем.

Что изменилось: фокус стал чётче

Ранняя версия CT-AI пыталась охватить сразу несколько направлений: как тестировать AI-системы, как использовать AI в тестировании и как устроено машинное обучение. В итоге syllabus получился широким, но размытым.

В v2.0 фокус сузился: теперь это сертификация исключительно про тестирование AI-систем. Раздел «Использование AI в тестировании» убран — для него появилась отдельная программа ISTQB CT Testing with Generative AI.

Это важный шаг: «AI for testing» и «testing AI» — разные компетенции. Одно дело — использовать LLM для генерации тест-кейсов, другое — тестировать системы с вероятностным поведением, галлюцинациями и дрейфом данных.

Структура стала логичнее: 11 глав → 7

В v1.0 было 11 глав, в v2.0 — 7. Новая структура лучше отражает жизненный цикл ML-систем:

Введение в ИИ
Качественные характеристики AI-систем
Машинное обучение
Тестирование AI-систем
Тестирование входных данных
Тестирование моделей
Тестирование разработки и развёртывания ML-систем

Теперь syllabus выглядит не как обзор, а как прикладное руководство: где и как ломаются реальные AI-системы.

GenAI и LLM наконец вошли в программу

В v1.0, выпущенной в 2021 году, GenAI почти не упоминался. В v2.0 он стал центральной темой.

Теперь в программе есть:

Generative AI и Large Language Models
Тестирование GenAI
Red teaming
Exploratory testing LLM
Fine-tuning
Retrieval-Augmented Generation (RAG)

Появился практический пример: исследовательское тестирование LLM с использованием boundary value analysis. Это уже ближе к реальным enterprise-сценариям.

Сильнее выделены тестирование данных и моделей

В v2.0 появились отдельные главы:

Тестирование входных данных: проверка смещений, репрезентативности, целостности разметки, pipeline и ограничений наборов данных.
Тестирование моделей: функциональные метрики, adversarial testing, metamorphic testing, drift, A/B testing, back-to-back testing, переобучение и недообучение.

Это отражает реальность: проблемы в AI-системах чаще начинаются не с модели, а с данных, pipeline или разметки.

Меньше внимания метрикам ML

Фокус на accuracy, precision, recall и F1-score ослаблен — и это правильно. Высокая метрика не гарантирует качество системы. Можно иметь отличный F1, но:

ошибаться на критичных сценариях
дискриминировать группы пользователей
уверенно галлюцинировать
ломаться на изменённых входах
плохо решать реальную задачу пользователя

CT-AI v2.0 подчёркивает: тестирование AI — это не только метрики, а оценка поведения в сложных условиях.

Quality characteristics стали компактнее

Блок про качественные характеристики сократили и привели к стандарту ISO/IEC 25059. Это повысило согласованность, но сократило пространство для обсуждения этики, безопасности и explainability.

Для базовой сертификации это оправдано, но в реальных проектах эти темы требуют глубокой проработки.

Что стало лучше

CT-AI v2.0 — значительный шаг вперёд:

Актуальные темы: GenAI, LLM, RAG
Чёткий фокус: только testing AI, не AI for testing
Логичная структура вокруг ML lifecycle
Внимание к probabilistic behavior, test oracle problem и statistical testing

Это помогает тестировщикам перейти от mindset «ожидаемый результат» к пониманию, что в AI нет стабильного oracle, а качество оценивается статистически.

Чего всё ещё не хватает

Несмотря на улучшения, v2.0 не покрывает все вызовы современных AI-систем.

1. Agentic AI почти не раскрыт

Агенты, которые планируют, вызывают инструменты и действуют от имени пользователя, — ключевой тренд. Но в syllabus мало о:

проверке планирования задач
зацикливании
восстановлении после ошибок
контроле действий
где требуется human approval

OWASP уже выделяет agentic AI как отдельную область рисков.

2. Tool calling и права доступа — почти пустота

Сейчас модель может не просто отвечать, а выполнять действия: создавать тикеты, отправлять email, вызывать API. Это требует тестирования:

least privilege
проверки прав доступа
логирования действий
защиты от prompt injection
контроля косвенного доступа через документы и комментарии

OWASP называет такие риски критичными, но в CT-AI v2.0 они не выделены.

3. Слабо раскрыта observability и мониторинг

В production нужно отслеживать:

реальные промпты и контекст
вызовы инструментов
стоимость и задержки запросов
hallucinations и refusals
деградацию сценариев после обновлений

Drift testing есть, но полноценной системы observability, tracing и runtime evaluation — нет. А в enterprise это уже must-have.

4. Memory risks почти не затронуты

Память в AI-системах — источник новых рисков:

отравление памяти
утечка данных
неправильные ассоциации
недостаточная изоляция между пользователями

Для агентов это особенно опасно. OWASP выделяет memory poisoning как ключевую угрозу — в CT-AI v2.0 об этом почти нет.

5. Мало про системное тестирование

Syllabus всё ещё смотрит на AI как на ML-модель: данные → модель → метрики. Но реальные продукты требуют оценки на уровне всей системы:

решает ли пользователь задачу до конца
насколько часто нужен человек
качество многошаговых сценариев
работа fallback-механизмов
возможность расследования инцидентов

Это уже не качество модели, а качество продукта, процесса и операций. В v2.0 этот уровень пока слабо представлен.

Итог: шаг в правильном направлении

CT-AI v2.0 стал:

короче
структурированнее
актуальнее
ближе к реальным задачам тестирования AI

Это хорошая база. Но не полная инструкция.

Если вы работаете с LLM, RAG или агентами, syllabus нужно дополнять:

тестированием агентов
проверкой tool calling и permissions
оценкой памяти и observability
системным подходом к качеству
проверкой prompt injection и runtime рисков

Сертификация не обязана охватывать весь хаос индустрии. Но она должна задавать правильные вопросы. В этом смысле v2.0 — шаг вперёд по сравнению с v1.0.

Читать оригинал

ISTQB обновил сертификацию AI Testing до v2.0. Что изменилось и чего там всё ещё не хватает

Что изменилось: фокус стал чётче

Структура стала логичнее: 11 глав → 7

GenAI и LLM наконец вошли в программу

Сильнее выделены тестирование данных и моделей

Меньше внимания метрикам ML

Quality characteristics стали компактнее

Что стало лучше

Чего всё ещё не хватает

1. Agentic AI почти не раскрыт

2. Tool calling и права доступа — почти пустота

3. Слабо раскрыта observability и мониторинг

4. Memory risks почти не затронуты

5. Мало про системное тестирование

Итог: шаг в правильном направлении

ISTQB обновил сертификацию AI Testing до v2.0. Что изменилось и чего там всё ещё не хватает

Что вообще произошло

Главное структурное изменение: 11 глав превратились в 7

AI for Testing убрали. И это правильно

GenAI и LLM наконец-то появились нормально

Сильнее выделили data testing и model testing

Меньше фокуса на ML performance metrics

Quality characteristics стали компактнее

Что стало лучше

Но чего там всё ещё не хватает

1. Agentic AI почти не раскрыт как объект тестирования

2. Tool calling и permissions почти не разобраны

3. Observability и runtime monitoring раскрыты слабо

4. Memory risks почти не покрыты

5. Мало про system-level evaluation

Мой общий вывод

Где потренироваться

Вместо финала

Где меня найти