Привет, меня зовут Евгений Семенюк.

Я в тестировании больше 12 лет: прошёл путь от Manual QA и автоматизации до Test Manager / Quality Architect. Сейчас много занимаюсь AI в тестировании, тестированием AI-систем, обучением команд и внедрением AI-подходов в QA-процессы.

Так получилось, что у меня 9 ISTQB-сертификаций, включая полный Expert Level Test Management и много лет я на волонтерских началах помогаю инженерам готовиться к экзаменам и развиваю продукты для тестировщиков.

Один из таких продуктов - ProSTQB.com.

Это платформа для подготовки к ISTQB-сертификациям, включая ISTQB CT-AI / AI Testing. Там есть не только пробные тесты, но и полноценный тренировочный процесс: разные виды сертификаций, история прохождения, сохранение вопросов, достижения, прогресс и формат, который больше похож на нормальный exam simulator, а не на “открыл PDF и страдаешь”.

Сейчас на ProSTQB уже доступны пробные тесты по обновлённой сертификации ISTQB Certified Tester AI Testing v2.0.

Сайт: https://prostqb.com/
(если не открывается - используйте VPN)

ProSTQB.com
ProSTQB.com

Недавно ISTQB выпустили новую версию сертификации Certified Tester AI Testing v2.0. Я посмотрел обновлённый syllabus и решил разобрать, что там изменилось, куда сместился фокус и насколько новая версия действительно соответствует тому, что сейчас происходит в мире AI testing.

Спойлер: стало заметно лучше. Но не без нюансов.

Что вообще произошло

ISTQB CT-AI v1.0 вышел в 2021 году. По меркам AI это почти археология.

Тогда мир ещё жил в логике классического machine learning: данные, модель, метрики, bias, explainability, test oracle problem, adversarial examples, drift. Всё это, конечно, важно и сегодня. Но после взрыва GenAI, LLM, RAG, copilots и agentic AI стало понятно, что старую программу нужно обновлять.

В v2.0 ISTQB прямо пишет, что это major update and rewrite of v1.0, вызванный быстрым развитием AI-технологий. Новый фокус теперь явно направлен на testing of AI-based systems, а раздел про testing with AI полностью убран, потому что для этого появилась отдельная сертификация ISTQB CT Testing with Generative AI.

И это важный момент.

Раньше CT-AI пыталась одновременно быть сертификацией про:

  • как тестировать AI-системы

  • как использовать AI для тестирования

  • как устроен ML

  • какие есть AI quality characteristics

  • какие техники применяются для AI-based systems

В итоге получался довольно широкий, но местами размазанный syllabus.

В v2.0 фокус стал чище: мы говорим в первую очередь про тестирование AI-систем.

Главное структурное изменение: 11 глав превратились в 7

В старой версии было 11 экзаменационных глав. В новой осталось 7.

В v1.0 структура выглядела примерно так:

  1. Introduction to AI

  2. Quality Characteristics for AI-Based Systems

  3. Machine Learning Overview

  4. ML Data

  5. ML Functional Performance Metrics

  6. Neural Networks and Testing

  7. Testing AI-Based Systems Overview

  8. Testing AI-Specific Quality Characteristics

  9. Methods and Techniques

  10. Test Environments

  11. Using AI for Testing

Особенно важна последняя глава: там были темы вроде AI для анализа дефектов, генерации тест-кейсов, оптимизации регрессии, defect prediction и GUI testing.

В v2.0 структура стала такой:

  1. Introduction to Artificial Intelligence

  2. Quality Characteristics for AI-Based Systems

  3. Machine Learning

  4. Testing AI-Based Systems

  5. Input Data Testing for Machine Learning Systems

  6. Model Testing for Machine Learning Systems

  7. Machine Learning Development Testing

На мой взгляд, это стало логичнее.

Теперь syllabus больше похож не на “обзор всего AI вокруг тестирования”, а на нормальную карту жизненного цикла ML-системы:

  • что такое AI-based system

  • какие у неё quality characteristics

  • как работает ML

  • как тестировать AI-based systems

  • как тестировать данные

  • как тестировать модель

  • как тестировать разработку и деплоймент ML-системы

То есть стало меньше экскурсии по музею AI и больше прикладного разговора о том, где такие системы реально ломаются.

AI for Testing убрали. И это правильно

Один из самых заметных апдейтов: из CT-AI убрали большой блок про Using AI for Testing.

На первый взгляд может показаться, что это странно. AI в тестировании сейчас везде: генерация тестов, анализ требований, автоматизация, self-healing tests, test data generation, анализ логов, ассистенты для QA.

Но логика ISTQB понятна.

Теперь есть отдельная сертификация CT Testing with Generative AI, а CT-AI v2.0 сфокусирована именно на тестировании AI-based systems. В release notes это прямо указано: раздел про testing with AI был полностью удалён из-за появления отдельной сертификации.

И мне это решение нравится.

Потому что “AI for testing” и “testing AI” - это две разные профессии внутри одной профессии.

Одно дело - использовать LLM, чтобы помочь себе написать чек-лист или тест-кейс.

Другое дело - тестировать систему, которая сама принимает вероятностные решения, работает с неидеальными данными, может галлюцинировать, менять поведение после обновления модели и ломаться не так, как обычный CRUD-сервис.

Это разные риски, разные техники и разные вопросы к качеству.

GenAI и LLM наконец-то появились нормально

В v1.0 GenAI почти не существовал как отдельный сюжет. Что неудивительно: syllabus вышел в 2021 году.

В v2.0 это исправили.

Теперь в программе есть:

  • Generative AI

  • Large Language Models

  • testing GenAI

  • red teaming

  • exploratory testing of an LLM

  • fine-tuning

  • Retrieval-Augmented Generation

В главе 4 syllabus прямо выделяет блок Testing Generative AI and LLM. Там есть learning objective по тому, как тестировать GenAI, отдельный objective по red teaming для GenAI systems и hands-on exercise по exploratory testing LLM, который выполняет boundary value analysis.

Это уже намного ближе к тому, что происходит на реальных проектах.

Потому что сегодня AI-система в enterprise - это часто не “мы обучили модель на датасете и посчитали accuracy”.

Чаще это что-то вроде:

  • LLM

  • системный prompt

  • RAG

  • векторная база

  • права доступа

  • интеграции

  • tool calling

  • human approval

  • логирование

  • мониторинг

  • политики безопасности

  • fallback сценарии

И хорошо, что хотя бы часть этого мира наконец появилась в CT-AI.

Сильнее выделили data testing и model testing

Одно из лучших изменений v2.0 - отдельные главы про:

  • Input Data Testing for Machine Learning Systems

  • Model Testing for Machine Learning Systems

В старой версии темы данных и моделей тоже были, но теперь они оформлены гораздо более явно.

В input data testing вынесены:

  • input data risks and mitigations

  • testing for bias

  • data pipeline testing

  • testing for data representativeness

  • dataset constraint testing

  • label correctness testing

В model testing вынесены:

  • ML model risks and mitigations

  • ML model documentation review

  • ML functional performance testing

  • adversarial testing

  • metamorphic testing

  • drift testing

  • overfitting and underfitting

  • A/B testing

  • back-to-back testing

Это хороший сдвиг. В реальной жизни проблемы AI-систем очень часто начинаются не с модели, а раньше: с данных, разметки, pipeline, репрезентативности, скрытых перекосов, сломанной подготовки признаков или странных допущений в тренировочном наборе.

Если классическое тестирование часто смотрит на поведение системы через входы и выходы, то тестирование ML-систем требует смотреть глубже: откуда пришли данные, как они были подготовлены, что именно модель выучила, как она ведёт себя на краях распределения и что происходит после деплоя.

В v2.0 это стало заметно лучше видно.

Меньше фокуса на ML performance metrics

Ещё одно изменение: в release notes указано, что фокус на ML performance metrics был уменьшен.

И это тоже выглядит разумно.

Метрики вроде accuracy, precision, recall, F1-score, confusion matrix важны. Без них нельзя нормально говорить о классификации и качестве модели.

Но проблема в том, что реальные AI-системы не сводятся к одной метрике.

Можно иметь хорошую accuracy и всё равно получить систему, которая:

  • плохо работает на редких, но критичных сценариях

  • дискриминирует отдельные группы пользователей

  • уверенно ошибается

  • ломается на слегка изменённых данных

  • даёт неприемлемые ответы в sensitive domains

  • хорошо проходит benchmark, но плохо решает пользовательскую задачу

  • создаёт слишком много операционных рисков

Поэтому хорошо, что v2.0 уходит от ощущения “посчитал метрику - значит протестировал AI”.

Нет. Не значит.

Quality characteristics стали компактнее

В v1.0 quality characteristics занимали больше места и включали отдельные темы вроде flexibility, adaptability, autonomy, evolution, bias, ethics, side effects, reward hacking, transparency, interpretability, explainability и safety.

В v2.0 этот блок стал компактнее, но сильнее связан с ISO/IEC 25059.

С одной стороны, это делает syllabus более аккуратным и стандартизированным.

С другой - есть риск, что часть важных разговоров станет слишком сжатой. Например, ethics, safety, explainability и controllability в реальных AI-системах не заканчиваются на определениях. Это область практических компромиссов, архитектурных решений, бизнес-рисков и иногда очень неприятных вопросов.

Но для сертификации базового уровня такой компромисс понятен.

Что стало лучше

Если коротко, CT-AI v2.0 стал лучше по нескольким причинам.

Во-первых, он стал современнее. GenAI и LLM теперь есть не где-то в сносках, а внутри программы.

Во-вторых, он стал сфокусированнее. Убрали “AI for testing”, оставили “testing AI-based systems”.

В-третьих, он стал лучше структурирован вокруг ML lifecycle: данные, модель, разработка, деплоймент, риски.

В-четвёртых, он лучше показывает, что тестирование AI-систем - это не только про expected result. Для AI-based systems часто нет стабильного oracle, поведение может быть вероятностным, а качество приходится оценивать статистически. В v2.0 этому уделено отдельное внимание: syllabus говорит о locked и adaptive AI-based systems, probabilistic behavior, statistical testing и test oracle problem.

И это важный mindset shift для тестировщиков.

Если вы привыкли к миру “нажал кнопку - получил ожидаемый текст - проверил assert”, AI-системы будут регулярно портить вам настроение.

Но чего там всё ещё не хватает

Теперь самая интересная часть.

Несмотря на хороший апдейт, CT-AI v2.0 всё ещё не является полной картой современных AI-систем.

Это не претензия в стиле “ISTQB опять всё испортили”. Скорее нормальное следствие того, что рынок меняется быстрее, чем любая сертификация успевает обновляться.

1. Agentic AI почти не раскрыт как объект тестирования

Во v2.0 agentic AI упоминается, но, на мой взгляд, недостаточно.

А сейчас это один из самых важных сдвигов: мы переходим от AI, который просто отвечает, к AI, который планирует, вызывает инструменты, принимает промежуточные решения, работает с памятью и может выполнять действия от имени пользователя.

Тестировать такую систему сложнее, чем обычный chatbot.

Нужно проверять:

  • как агент планирует задачу

  • когда он вызывает tools

  • какие permissions у этих tools

  • что происходит при ошибке tool call

  • может ли агент зациклиться

  • как он восстанавливается после неудачного шага

  • как логируются действия

  • где стоит human approval

  • может ли он выполнить опасное действие без подтверждения

  • что происходит с памятью между сессиями

OWASP уже отдельно выделяет agentic AI как область с новыми threats and mitigations. Там речь идёт о рисках, которые появляются из-за autonomy, tools, memory и интеграции LLM в агентные архитектуры. (OWASP Gen AI Security Project)

В CT-AI v2.0 этого уровня детализации пока нет.

2. Tool calling и permissions почти не разобраны

Для современных AI-систем model output - это уже не всегда финальный ответ пользователю.

Иногда output модели становится командой:

  • сходить в Jira

  • создать тикет

  • отправить email

  • изменить запись

  • вызвать API

  • запустить workflow

  • прочитать документ

  • обновить CRM

  • выполнить действие в браузере

И тут начинается веселье.

Потому что тестировать нужно не только “что модель сказала”, но и “что система сделала”.

А это уже вопросы:

  • least privilege

  • tool access control

  • sandboxing

  • audit logs

  • approval gates

  • action rollback

  • separation of duties

  • protection against prompt injection

  • защита от indirect prompt injection через внешние документы, страницы, письма и комментарии

OWASP AI Agent Security Cheat Sheet среди ключевых рисков прямо называет direct and indirect prompt injection, tool abuse, privilege escalation, data exfiltration, memory poisoning, goal hijacking и excessive autonomy. (OWASP Cheat Sheet Series)

В syllabus это пока не выглядит как отдельная большая тема.

3. Observability и runtime monitoring раскрыты слабо

В классическом тестировании мы часто мыслим так: протестировали перед релизом, задеплоили, живём.

С AI-системами так не работает.

Особенно если это LLM/RAG/agentic система.

В production нужно смотреть:

  • какие prompts реально уходят в модель

  • какие версии prompt и модели использовались

  • какой контекст достался из RAG

  • какие tools были вызваны

  • сколько стоил запрос

  • какая была latency

  • где случились refusals

  • где были hallucinations

  • где пользователь переоткрыл задачу

  • где потребовался human escalation

  • какие сценарии начали деградировать после обновления

В v2.0 есть drift testing и deployment testing, это хорошо. Но полноценного слоя AI observability, tracing и runtime evaluation я там не увидел.

А для enterprise AI это уже не “nice to have”. Это то, без чего потом невозможно понять, почему система внезапно начала делать странные вещи в проде.

4. Memory risks почти не покрыты

Если у AI-системы есть память, у неё появляется новый класс рисков.

Память может быть:

  • неправильной

  • устаревшей

  • отравленной

  • слишком широкой

  • не изолированной между пользователями

  • содержащей sensitive data

  • влияющей на будущие решения системы

Для agentic AI это особенно опасно. Если агент запомнил плохой факт, вредную инструкцию или контекст из недоверенного источника, он может использовать это позже, когда пользователь вообще не ожидает связи между событиями.

OWASP в контексте AI agents прямо выделяет memory poisoning как один из ключевых рисков. (OWASP Cheat Sheet Series)

В CT-AI v2.0 есть RAG и разговор про данные, но memory lifecycle как отдельный объект тестирования пока почти не раскрыт.

5. Мало про system-level evaluation

CT-AI v2.0 всё ещё довольно сильно смотрит на AI через призму ML-системы:

данные -> модель -> метрики -> drift -> deployment.

Это полезная рамка. Но современные AI-продукты часто требуют оценки на уровне всей системы.

Например:

  • решает ли пользователь задачу до конца

  • насколько часто нужен человек

  • насколько ответы полезны в реальном workflow

  • сколько стоит выполнение задачи

  • насколько стабильно агент проходит многошаговый сценарий

  • как часто он выбирает неправильный tool

  • где теряется бизнес-контекст

  • насколько хорошо работает fallback

  • можно ли расследовать инцидент после ошибки

Это уже не просто model quality. Это product quality, process quality и operational quality.

И вот здесь syllabus пока выглядит немного ML-centric.

Мой общий вывод

Мне нравится направление CT-AI v2.0.

Это уже не syllabus из мира “давайте поговорим про AI effect и нейросетки в вакууме”.

Новая версия стала:

  • короче

  • собраннее

  • современнее

  • ближе к GenAI

  • ближе к ML lifecycle

  • полезнее для понимания testing of AI-based systems

Но важно понимать ограничение.

CT-AI v2.0 - это хорошая база.
Но это не полная инструкция по тестированию современных LLM, RAG и agentic AI systems.

Если вы готовитесь к сертификации, новая версия выглядит более актуальной, чем старая.

Если вы реально работаете с AI на проекте, syllabus стоит воспринимать как foundation, а дальше обязательно добавлять сверху:

  • agentic AI testing

  • prompt injection testing

  • RAG evaluation

  • tool calling security

  • memory testing

  • AI observability

  • runtime monitoring

  • human-in-the-loop controls

  • system-level evaluation

Иначе можно получить красивое понимание терминов, но всё равно растеряться, когда AI-агент в проде решит “помочь” пользователю слишком творчески.

Где потренироваться

Раз уж речь про ISTQB, добавлю немного практики.

На ProSTQB.com уже доступны пробные тесты по обновлённой CT-AI v2.0.

Идея простая: не просто читать syllabus, а проверять себя вопросами, тренироваться на формате экзамена и лучше понимать, какие темы действительно стоит подтянуть.

Сейчас ProSTQB развивается как платформа для подготовки к ISTQB: с пробными экзаменами, вопросами и фокусом на то, чтобы подготовка была не мучением, а нормальным рабочим процессом.

Если вы планировали готовиться к AI Testing, сейчас как раз хороший момент смотреть уже в сторону новой версии.

На платформе есть:

  • разные виды ISTQB-сертификаций

  • пробные тесты и тренировочные вопросы

  • история прохождения тестов

  • возможность сохранять вопросы

  • достижения и ачивки

  • отслеживание прогресса

  • удобный формат подготовки к экзамену

Идея простая: подготовка к ISTQB не должна выглядеть как наказание PDF-файлом на 90 страниц.

Syllabus читать всё равно нужно. Без этого никак. Но пробные тесты помогают быстро понять, где у вас пробелы, какие темы вы путаете и насколько вы готовы к реальному экзамену.

Попробовать можно здесь:

https://prostqb.com/
(если не открывается - используйте VPN)

Вместо финала

Обновление CT-AI v2.0 выглядит как шаг в правильную сторону.

ISTQB убрали лишнее, добавили GenAI, усилили фокус на данных и моделях, признали важность red teaming и exploratory testing для LLM.

Но мир AI testing уже бежит дальше: в сторону агентов, инструментов, памяти, runtime risks и production observability.

Так что я бы сформулировал так:

Для сертификации - стало сильно лучше.
Для реального enterprise AI testing - это только начало разговора.

И, честно говоря, это нормально.

Хорошая сертификация не обязана закрывать весь хаос индустрии. Но она должна дать правильную основу, чтобы человек мог дальше задавать хорошие вопросы.

Похоже, v2.0 уже ближе к этому, чем v1.0.

Где меня найти

Если вам интересны темы тестирования, ISTQB, AI в QA, тестирования AI-систем и практического применения GenAI в инженерных процессах, можно найти меня здесь:

Мои проекты:

UGenius - основная страница с моими проектами и активностями:
https://ugenius.io/

Telegram-канал “Юджиниус” - пишу про тестирование, AI, качество, ISTQB, свои продукты и всё, что происходит на стыке QA и технологий:
https://t.me/ugenius_channel

Буду рад обратной связи по статье, syllabus v2.0 и вашему опыту тестирования AI-систем на реальных проектах.

Комментарии (0)