Привет, меня зовут Евгений Семенюк.
Я в тестировании больше 12 лет: прошёл путь от Manual QA и автоматизации до Test Manager / Quality Architect. Сейчас много занимаюсь AI в тестировании, тестированием AI-систем, обучением команд и внедрением AI-подходов в QA-процессы.
Так получилось, что у меня 9 ISTQB-сертификаций, включая полный Expert Level Test Management и много лет я на волонтерских началах помогаю инженерам готовиться к экзаменам и развиваю продукты для тестировщиков.
Один из таких продуктов - ProSTQB.com.
Это платформа для подготовки к ISTQB-сертификациям, включая ISTQB CT-AI / AI Testing. Там есть не только пробные тесты, но и полноценный тренировочный процесс: разные виды сертификаций, история прохождения, сохранение вопросов, достижения, прогресс и формат, который больше похож на нормальный exam simulator, а не на “открыл PDF и страдаешь”.
Сейчас на ProSTQB уже доступны пробные тесты по обновлённой сертификации ISTQB Certified Tester AI Testing v2.0.
Сайт: https://prostqb.com/
(если не открывается - используйте VPN)

Недавно ISTQB выпустили новую версию сертификации Certified Tester AI Testing v2.0. Я посмотрел обновлённый syllabus и решил разобрать, что там изменилось, куда сместился фокус и насколько новая версия действительно соответствует тому, что сейчас происходит в мире AI testing.
Спойлер: стало заметно лучше. Но не без нюансов.
Что вообще произошло
ISTQB CT-AI v1.0 вышел в 2021 году. По меркам AI это почти археология.
Тогда мир ещё жил в логике классического machine learning: данные, модель, метрики, bias, explainability, test oracle problem, adversarial examples, drift. Всё это, конечно, важно и сегодня. Но после взрыва GenAI, LLM, RAG, copilots и agentic AI стало понятно, что старую программу нужно обновлять.
В v2.0 ISTQB прямо пишет, что это major update and rewrite of v1.0, вызванный быстрым развитием AI-технологий. Новый фокус теперь явно направлен на testing of AI-based systems, а раздел про testing with AI полностью убран, потому что для этого появилась отдельная сертификация ISTQB CT Testing with Generative AI.
И это важный момент.
Раньше CT-AI пыталась одновременно быть сертификацией про:
как тестировать AI-системы
как использовать AI для тестирования
как устроен ML
какие есть AI quality characteristics
какие техники применяются для AI-based systems
В итоге получался довольно широкий, но местами размазанный syllabus.
В v2.0 фокус стал чище: мы говорим в первую очередь про тестирование AI-систем.
Главное структурное изменение: 11 глав превратились в 7
В старой версии было 11 экзаменационных глав. В новой осталось 7.
В v1.0 структура выглядела примерно так:
Introduction to AI
Quality Characteristics for AI-Based Systems
Machine Learning Overview
ML Data
ML Functional Performance Metrics
Neural Networks and Testing
Testing AI-Based Systems Overview
Testing AI-Specific Quality Characteristics
Methods and Techniques
Test Environments
Using AI for Testing
Особенно важна последняя глава: там были темы вроде AI для анализа дефектов, генерации тест-кейсов, оптимизации регрессии, defect prediction и GUI testing.
В v2.0 структура стала такой:
Introduction to Artificial Intelligence
Quality Characteristics for AI-Based Systems
Machine Learning
Testing AI-Based Systems
Input Data Testing for Machine Learning Systems
Model Testing for Machine Learning Systems
Machine Learning Development Testing
На мой взгляд, это стало логичнее.
Теперь syllabus больше похож не на “обзор всего AI вокруг тестирования”, а на нормальную карту жизненного цикла ML-системы:
что такое AI-based system
какие у неё quality characteristics
как работает ML
как тестировать AI-based systems
как тестировать данные
как тестировать модель
как тестировать разработку и деплоймент ML-системы
То есть стало меньше экскурсии по музею AI и больше прикладного разговора о том, где такие системы реально ломаются.
AI for Testing убрали. И это правильно
Один из самых заметных апдейтов: из CT-AI убрали большой блок про Using AI for Testing.
На первый взгляд может показаться, что это странно. AI в тестировании сейчас везде: генерация тестов, анализ требований, автоматизация, self-healing tests, test data generation, анализ логов, ассистенты для QA.
Но логика ISTQB понятна.
Теперь есть отдельная сертификация CT Testing with Generative AI, а CT-AI v2.0 сфокусирована именно на тестировании AI-based systems. В release notes это прямо указано: раздел про testing with AI был полностью удалён из-за появления отдельной сертификации.
И мне это решение нравится.
Потому что “AI for testing” и “testing AI” - это две разные профессии внутри одной профессии.
Одно дело - использовать LLM, чтобы помочь себе написать чек-лист или тест-кейс.
Другое дело - тестировать систему, которая сама принимает вероятностные решения, работает с неидеальными данными, может галлюцинировать, менять поведение после обновления модели и ломаться не так, как обычный CRUD-сервис.
Это разные риски, разные техники и разные вопросы к качеству.
GenAI и LLM наконец-то появились нормально
В v1.0 GenAI почти не существовал как отдельный сюжет. Что неудивительно: syllabus вышел в 2021 году.
В v2.0 это исправили.
Теперь в программе есть:
Generative AI
Large Language Models
testing GenAI
red teaming
exploratory testing of an LLM
fine-tuning
Retrieval-Augmented Generation
В главе 4 syllabus прямо выделяет блок Testing Generative AI and LLM. Там есть learning objective по тому, как тестировать GenAI, отдельный objective по red teaming для GenAI systems и hands-on exercise по exploratory testing LLM, который выполняет boundary value analysis.
Это уже намного ближе к тому, что происходит на реальных проектах.
Потому что сегодня AI-система в enterprise - это часто не “мы обучили модель на датасете и посчитали accuracy”.
Чаще это что-то вроде:
LLM
системный prompt
RAG
векторная база
права доступа
интеграции
tool calling
human approval
логирование
мониторинг
политики безопасности
fallback сценарии
И хорошо, что хотя бы часть этого мира наконец появилась в CT-AI.
Сильнее выделили data testing и model testing
Одно из лучших изменений v2.0 - отдельные главы про:
Input Data Testing for Machine Learning Systems
Model Testing for Machine Learning Systems
В старой версии темы данных и моделей тоже были, но теперь они оформлены гораздо более явно.
В input data testing вынесены:
input data risks and mitigations
testing for bias
data pipeline testing
testing for data representativeness
dataset constraint testing
label correctness testing
В model testing вынесены:
ML model risks and mitigations
ML model documentation review
ML functional performance testing
adversarial testing
metamorphic testing
drift testing
overfitting and underfitting
A/B testing
back-to-back testing
Это хороший сдвиг. В реальной жизни проблемы AI-систем очень часто начинаются не с модели, а раньше: с данных, разметки, pipeline, репрезентативности, скрытых перекосов, сломанной подготовки признаков или странных допущений в тренировочном наборе.
Если классическое тестирование часто смотрит на поведение системы через входы и выходы, то тестирование ML-систем требует смотреть глубже: откуда пришли данные, как они были подготовлены, что именно модель выучила, как она ведёт себя на краях распределения и что происходит после деплоя.
В v2.0 это стало заметно лучше видно.
Меньше фокуса на ML performance metrics
Ещё одно изменение: в release notes указано, что фокус на ML performance metrics был уменьшен.
И это тоже выглядит разумно.
Метрики вроде accuracy, precision, recall, F1-score, confusion matrix важны. Без них нельзя нормально говорить о классификации и качестве модели.
Но проблема в том, что реальные AI-системы не сводятся к одной метрике.
Можно иметь хорошую accuracy и всё равно получить систему, которая:
плохо работает на редких, но критичных сценариях
дискриминирует отдельные группы пользователей
уверенно ошибается
ломается на слегка изменённых данных
даёт неприемлемые ответы в sensitive domains
хорошо проходит benchmark, но плохо решает пользовательскую задачу
создаёт слишком много операционных рисков
Поэтому хорошо, что v2.0 уходит от ощущения “посчитал метрику - значит протестировал AI”.
Нет. Не значит.
Quality characteristics стали компактнее
В v1.0 quality characteristics занимали больше места и включали отдельные темы вроде flexibility, adaptability, autonomy, evolution, bias, ethics, side effects, reward hacking, transparency, interpretability, explainability и safety.
В v2.0 этот блок стал компактнее, но сильнее связан с ISO/IEC 25059.
С одной стороны, это делает syllabus более аккуратным и стандартизированным.
С другой - есть риск, что часть важных разговоров станет слишком сжатой. Например, ethics, safety, explainability и controllability в реальных AI-системах не заканчиваются на определениях. Это область практических компромиссов, архитектурных решений, бизнес-рисков и иногда очень неприятных вопросов.
Но для сертификации базового уровня такой компромисс понятен.
Что стало лучше
Если коротко, CT-AI v2.0 стал лучше по нескольким причинам.
Во-первых, он стал современнее. GenAI и LLM теперь есть не где-то в сносках, а внутри программы.
Во-вторых, он стал сфокусированнее. Убрали “AI for testing”, оставили “testing AI-based systems”.
В-третьих, он стал лучше структурирован вокруг ML lifecycle: данные, модель, разработка, деплоймент, риски.
В-четвёртых, он лучше показывает, что тестирование AI-систем - это не только про expected result. Для AI-based systems часто нет стабильного oracle, поведение может быть вероятностным, а качество приходится оценивать статистически. В v2.0 этому уделено отдельное внимание: syllabus говорит о locked и adaptive AI-based systems, probabilistic behavior, statistical testing и test oracle problem.
И это важный mindset shift для тестировщиков.
Если вы привыкли к миру “нажал кнопку - получил ожидаемый текст - проверил assert”, AI-системы будут регулярно портить вам настроение.
Но чего там всё ещё не хватает
Теперь самая интересная часть.
Несмотря на хороший апдейт, CT-AI v2.0 всё ещё не является полной картой современных AI-систем.
Это не претензия в стиле “ISTQB опять всё испортили”. Скорее нормальное следствие того, что рынок меняется быстрее, чем любая сертификация успевает обновляться.
1. Agentic AI почти не раскрыт как объект тестирования
Во v2.0 agentic AI упоминается, но, на мой взгляд, недостаточно.
А сейчас это один из самых важных сдвигов: мы переходим от AI, который просто отвечает, к AI, который планирует, вызывает инструменты, принимает промежуточные решения, работает с памятью и может выполнять действия от имени пользователя.
Тестировать такую систему сложнее, чем обычный chatbot.
Нужно проверять:
как агент планирует задачу
когда он вызывает tools
какие permissions у этих tools
что происходит при ошибке tool call
может ли агент зациклиться
как он восстанавливается после неудачного шага
как логируются действия
где стоит human approval
может ли он выполнить опасное действие без подтверждения
что происходит с памятью между сессиями
OWASP уже отдельно выделяет agentic AI как область с новыми threats and mitigations. Там речь идёт о рисках, которые появляются из-за autonomy, tools, memory и интеграции LLM в агентные архитектуры. (OWASP Gen AI Security Project)
В CT-AI v2.0 этого уровня детализации пока нет.
2. Tool calling и permissions почти не разобраны
Для современных AI-систем model output - это уже не всегда финальный ответ пользователю.
Иногда output модели становится командой:
сходить в Jira
создать тикет
отправить email
изменить запись
вызвать API
запустить workflow
прочитать документ
обновить CRM
выполнить действие в браузере
И тут начинается веселье.
Потому что тестировать нужно не только “что модель сказала”, но и “что система сделала”.
А это уже вопросы:
least privilege
tool access control
sandboxing
audit logs
approval gates
action rollback
separation of duties
protection against prompt injection
защита от indirect prompt injection через внешние документы, страницы, письма и комментарии
OWASP AI Agent Security Cheat Sheet среди ключевых рисков прямо называет direct and indirect prompt injection, tool abuse, privilege escalation, data exfiltration, memory poisoning, goal hijacking и excessive autonomy. (OWASP Cheat Sheet Series)
В syllabus это пока не выглядит как отдельная большая тема.
3. Observability и runtime monitoring раскрыты слабо
В классическом тестировании мы часто мыслим так: протестировали перед релизом, задеплоили, живём.
С AI-системами так не работает.
Особенно если это LLM/RAG/agentic система.
В production нужно смотреть:
какие prompts реально уходят в модель
какие версии prompt и модели использовались
какой контекст достался из RAG
какие tools были вызваны
сколько стоил запрос
какая была latency
где случились refusals
где были hallucinations
где пользователь переоткрыл задачу
где потребовался human escalation
какие сценарии начали деградировать после обновления
В v2.0 есть drift testing и deployment testing, это хорошо. Но полноценного слоя AI observability, tracing и runtime evaluation я там не увидел.
А для enterprise AI это уже не “nice to have”. Это то, без чего потом невозможно понять, почему система внезапно начала делать странные вещи в проде.
4. Memory risks почти не покрыты
Если у AI-системы есть память, у неё появляется новый класс рисков.
Память может быть:
неправильной
устаревшей
отравленной
слишком широкой
не изолированной между пользователями
содержащей sensitive data
влияющей на будущие решения системы
Для agentic AI это особенно опасно. Если агент запомнил плохой факт, вредную инструкцию или контекст из недоверенного источника, он может использовать это позже, когда пользователь вообще не ожидает связи между событиями.
OWASP в контексте AI agents прямо выделяет memory poisoning как один из ключевых рисков. (OWASP Cheat Sheet Series)
В CT-AI v2.0 есть RAG и разговор про данные, но memory lifecycle как отдельный объект тестирования пока почти не раскрыт.
5. Мало про system-level evaluation
CT-AI v2.0 всё ещё довольно сильно смотрит на AI через призму ML-системы:
данные -> модель -> метрики -> drift -> deployment.
Это полезная рамка. Но современные AI-продукты часто требуют оценки на уровне всей системы.
Например:
решает ли пользователь задачу до конца
насколько часто нужен человек
насколько ответы полезны в реальном workflow
сколько стоит выполнение задачи
насколько стабильно агент проходит многошаговый сценарий
как часто он выбирает неправильный tool
где теряется бизнес-контекст
насколько хорошо работает fallback
можно ли расследовать инцидент после ошибки
Это уже не просто model quality. Это product quality, process quality и operational quality.
И вот здесь syllabus пока выглядит немного ML-centric.
Мой общий вывод
Мне нравится направление CT-AI v2.0.
Это уже не syllabus из мира “давайте поговорим про AI effect и нейросетки в вакууме”.
Новая версия стала:
короче
собраннее
современнее
ближе к GenAI
ближе к ML lifecycle
полезнее для понимания testing of AI-based systems
Но важно понимать ограничение.
CT-AI v2.0 - это хорошая база.
Но это не полная инструкция по тестированию современных LLM, RAG и agentic AI systems.
Если вы готовитесь к сертификации, новая версия выглядит более актуальной, чем старая.
Если вы реально работаете с AI на проекте, syllabus стоит воспринимать как foundation, а дальше обязательно добавлять сверху:
agentic AI testing
prompt injection testing
RAG evaluation
tool calling security
memory testing
AI observability
runtime monitoring
human-in-the-loop controls
system-level evaluation
Иначе можно получить красивое понимание терминов, но всё равно растеряться, когда AI-агент в проде решит “помочь” пользователю слишком творчески.
Где потренироваться
Раз уж речь про ISTQB, добавлю немного практики.
На ProSTQB.com уже доступны пробные тесты по обновлённой CT-AI v2.0.
Идея простая: не просто читать syllabus, а проверять себя вопросами, тренироваться на формате экзамена и лучше понимать, какие темы действительно стоит подтянуть.
Сейчас ProSTQB развивается как платформа для подготовки к ISTQB: с пробными экзаменами, вопросами и фокусом на то, чтобы подготовка была не мучением, а нормальным рабочим процессом.
Если вы планировали готовиться к AI Testing, сейчас как раз хороший момент смотреть уже в сторону новой версии.
На платформе есть:
разные виды ISTQB-сертификаций
пробные тесты и тренировочные вопросы
история прохождения тестов
возможность сохранять вопросы
достижения и ачивки
отслеживание прогресса
удобный формат подготовки к экзамену
Идея простая: подготовка к ISTQB не должна выглядеть как наказание PDF-файлом на 90 страниц.
Syllabus читать всё равно нужно. Без этого никак. Но пробные тесты помогают быстро понять, где у вас пробелы, какие темы вы путаете и насколько вы готовы к реальному экзамену.
Попробовать можно здесь:
? https://prostqb.com/
(если не открывается - используйте VPN)

Вместо финала
Обновление CT-AI v2.0 выглядит как шаг в правильную сторону.
ISTQB убрали лишнее, добавили GenAI, усилили фокус на данных и моделях, признали важность red teaming и exploratory testing для LLM.
Но мир AI testing уже бежит дальше: в сторону агентов, инструментов, памяти, runtime risks и production observability.
Так что я бы сформулировал так:
Для сертификации - стало сильно лучше.
Для реального enterprise AI testing - это только начало разговора.
И, честно говоря, это нормально.
Хорошая сертификация не обязана закрывать весь хаос индустрии. Но она должна дать правильную основу, чтобы человек мог дальше задавать хорошие вопросы.
Похоже, v2.0 уже ближе к этому, чем v1.0.
Где меня найти
Если вам интересны темы тестирования, ISTQB, AI в QA, тестирования AI-систем и практического применения GenAI в инженерных процессах, можно найти меня здесь:
Мои проекты:
UGenius - основная страница с моими проектами и активностями:
https://ugenius.io/
Telegram-канал “Юджиниус” - пишу про тестирование, AI, качество, ISTQB, свои продукты и всё, что происходит на стыке QA и технологий:
https://t.me/ugenius_channel
Буду рад обратной связи по статье, syllabus v2.0 и вашему опыту тестирования AI-систем на реальных проектах.