Привет!
Меня зовут Лилия Урмазова, я работаю QA-инженером уже 25 лет.
Если ты в IT давно и поработал на самых разных ролях в самых разных проектах, исчезает ощущение новизны. И когда все-таки появляется что-то принципиально новое, возникает непреодолимое желание в него погрузиться.
Последние пару лет я специализировалась на тестировании в зарубежных AI-стартапах.
А сейчас прокачиваю экспертизу как AI-QA инженер на AI-проекте в известной международной IT-компании.
Бум AI-разработки до русскоязычного рынка пока не дошел, хотя многие использует AI-тулы для работы с тест-кейсами и автотестами. Серьезных AI-проектов мало, а число AI-QA-вакансий можно пересчитать по пальцам одной руки
А вот хайп и ощущение пузыря уже пришли.
Тем не менее есть четыре причины погрузиться во всё это:
Причина 1: Хайп и пузырь, но …
Разумно ли считать AI-индустрию качественным, добротным пузырем?
Несомненно!
OpenAI собирается быть рентабельным только в следующем десятилетии. И это, извините, при почти миллиарде еженедельных пользователей.
На рынке огромное количество стартапов-оберток. Которые не создают какой-то уникальный функционал, а лишь присобачивают UI к стандартным возможностям AI-модели.
Кривая роста качества AI-моделей стала более плоской. И не надо верить бенчмаркам, на которые модели усиленно натаскивают. Прокачавшийся на вопросах к ЕГЭ школьник автоматически не становится интеллектуалом.
Но даже если убрать весь хайп и предположить, что сдутие пузыря рано или поздно произойдет, то AI уже никуда не денется. Как не делся интернет после краха доткомов в начале века.
Есть уже огромное число сфер применения, где AI прочно утвердился. От преддиагностики снимков в медицине и моделирования белков в фармацевтике до антифрода в финансах и мониторинга в тяжелой промышленности.
Да, есть большое число задач, где AI часто попадает впросак. И это большое поле работы для тестировщиков - AI-QA-инженеров.
Причина 2: Тотальный недетерминизм
Тестирование AI-приложений — это действительно интересно. Ведь подходы к обеспечению качества AI-приложений радикально отличаются от классических.
Я часто слышу от коллег и представителей заказчиков вопрос “А как это тестировать?”.
Да, тестирование переходит от уровня простейшей алгебры средней школы к теории вероятности и матстатистике.
Мир контроля качества перестал быть черно-белым, где единственный недетерминированный выбор - это принятие решения о том, можем все-таки идти в прод с текущим набором дефектов или нет.
Теперь результаты тестирования каждой отдельной фичи порождают множество вопросов, на которые сложно найти ответы. Recall 0.9 - это много или мало? Accuracy 0.83 - это нормально?
Больше информации для принятия решения, больше ответственности, больше драйва.
Причина 3: Профессии мутируют
Профессия программиста пока больше меняется по форме, в части вспомогательного инструментария. С точки зрения сути разработки глобально все равно, какое именно API дергать - классическое или AI-ное. Но уже очевидно, что спрос на чистых кодеров будет падать - навык написания синтаксически верного кода обесценивается. Им придется мутировать в программистов-архитекторов.
А вот тестировщикам работы уже прибавилось. Потому что разбираться, почему сейчас это AI-ное API вернуло одно, а потом другое - приходится MLщикам и им.
И здесь происходят очень активные изменения. Я даже не могу сейчас сказать, по какой специальности работаю, так как у нее два наименования.
Одно - AI-QA-Engineer и оно явно имеет корни классического тестирования.
Другое - ML Evaluation Engineer (инженер по оценке ML) и оно предполагает вхождение в качество не с классических QA-основ, а через ML.
По функционалу же я вижу сочетание как классических основ, так и ML-специфики.
Кстати, четкую грань между AI-QA Engineer и ML Evaluation Engineer провести сложно, но вакансия с последним названием будет “стоить” дороже.
В любом случае в перспективах тестирования я пока что не сомневаюсь. Наверняка с течением времени качество и предсказуемость работы AI-моделей вырастет.
Но до тех пор, пока интерфейсом приложений пользуются люди, кому-то из людей все-таки придется проверять, что получилось.
Причина 4: Деньги (или, как минимум, их наличие)
В этом году плотно пообщалась с десятком AI-компаний со всего мира, включая основанных выходцами из Google. И только одна AI-команда была русскоязычной, из крупного банка, и искала AI-QA-инженера на зарплату 500’000 ₽. Да, деньги не запредельные для финтеха - столько может получать и классический сеньор. И да - AI-вакансий на русскоязычном рынке пропорционально на два порядка ниже, чем на англоязычном.
Масштабная AI-разработка рано или поздно дойдет и до русскоязычного рынка. И тогда вначале те, кто обладают необходимыми компетенциями, будут зарабатывать выше среднего. А затем станет вопрос, хватит ли рынка тестирования классических приложений (которой проживет еще не один десяток лет) на всех классических специалистов.
Тестируем пять AI-моделей одновременно и не только
На основе моего практического опыта и опыта коллег мы сделали бесплатный вводный курс по тестированию AI-приложений. Это один из первых именно практических курсов по тестированию AI.
Что из него можно узнать?
Как работают AI-приложения, как разрабатываются (MLOps) и чем принципиально отличается их функциональное тестирование. Всё это — на десятках примеров различных AI-приложений.
Какие Non-LLM и LLM метрики позволяют на практике убедиться, что AI-приложение работает правильно.
Почему нефункциональное AI-тестирование может сэкономить проекту миллионы.
Что благодаря ему можно научиться делать? (потребуется покупка токенов для AI-тренажера)
Проводить функциональное тестирование AI-приложения, рассчитывая нужные Non-LLM и LLM-метрики.
Делать нефункциональное тестирование - например, состязательное.
Создавать AI-приложения с подходом LLM-as-a-Judge (даже если никогда не программировали). И писать для него автотесты (даже если никогда их не писали).
Отдельный увлекательный процесс - это упражнения в AI-тренажере.
Он позволяет выполнять одновременное тестирование сразу пяти АI-моделей:

А потом получить ответ от наиболее продвинутой модели (и заодно понаблюдать, как работает LLM-as-a-Judge):

Минус только один - бесплатным AI-тренажер не сделать. Функциональность открытых AI-моделей сильно ограничена, а в тренажере приходится использовать самые передовые.
Это именно вводный курс для классических тестировщиков, а не ML-специалистов. Поэтому мы не стали его перегружать — в нем минимум математических формул, а продвинутые техники AI-тестирования (тестирование AI-агентов; моделей, прошедших FineTuning и т.п.) рассматриваются обзорно.
Как всегда, бесплатно и без регистрации
Регистрация нужна только для сохранения прогресса.
Бесплатный курс "Как тестировать AI-приложения"
(при проблемах с доступом)
Сейчас выложили первую часть. Анонсы выхода следующих, тоже бесплатных частей - в телеграм-канале Становимся продвинутым QA.
Всем результативного обучения!