
Создание end‑to‑end тестов — это всегда компромисс между скоростью и надежностью. Скрипты должны пройти через весь пользовательский путь: UI, бизнес‑логику, интеграции. Ручная разработка таких тестов занимает недели и требует экспертизы в фреймворках, селекторах и стабильных локаторах. Большие языковые модели уже умеют генерировать unit‑тесты, но с интеграционными сценариями всё сложнее. Авторы GenIA‑E2ETest пытаются закрыть этот разрыв: взять требования, описанные обычным языком, и автоматически превратить их в исполняемые сценарии для Robot Framework.
Идея в двух словах
GenIA‑E2ETest — это связка из LLM и краулера, которая читает текстовый сценарий, находит нужные элементы интерфейса на страницах и выпускает готовый E2E‑скрипт. Подход открыт, модульный и не привязан к одному стеку: сейчас используется Robot Framework с Selenium, но концепцию можно перенести на Playwright или Cypress.
Как это устроено внутри
Система строится на трёх уровнях промтов:
Разбор сценария. LLM превращает свободный текст в структурированный список шагов с разбивкой по страницам и ожидаемыми проверками.
Поиск и уточнение элементов UI. Краулер (Crawl4AI) подтягивает HTML, LLM извлекает кандидаты с типами и XPath, затем вторым проходом чистит дубликаты и укрепляет селекторы.
Генерация исполняемого кода. На основе проверенного JSON LLM пишет понятный скрипт Robot Framework: с ключевыми словами, переходами, вводом данных и проверками.

Как это проверяли
Оценка проведена на двух веб‑приложениях: публичном AutomationExercise (логин, регистрация, формы, корзина) и учебном кино‑сервисе на React/Vite (динамические маршруты). Взяли 12 сценариев, по три прогона каждый — итого 36 запусков. Генерация всех скриптов заняла около 26 минут, затем их запускали под наблюдением, фиксируя минимальные правки. Модель — ChatGPT‑4o (вариант gpt‑4o‑mini) с нулевой температурой.
Что получилось на практике
По элементам интерфейса средние значения составили 77% для точности и 77% для полноты извлечения. Девять из двенадцати сценариев перешагнули планку 70%, пять — выше 91%. Главный сбой — сценарий с контекстно‑зависимой навигацией.
По выполнению скриптов — 82% точности и 85% полноты. В эти цифры уже включены мелкие ручные правки: корректировка XPath, ожидания, переименование ключевых слов.
Покрытие шагов вышло на 104% за счет разумной декомпозиции: где пользователь писал “ввести email и пароль”, генерировались два отдельных шага с дополнительными проверками загрузки страниц.
Средняя доля правок — 10% строк на сценарий (медиана 6%). В простых кейсах — почти ноль, в сложном контекстном — до 49%.
Где тонко и что улучшать
Подход стабилен на привычной навигации и структурированных интерфейсах. Проблемы возникают там, где:
следующая страница зависит от скрытых условий и состояние надо явно удерживать;
элементы появляются динамически и меняют атрибуты;
семантика шага двусмысленна (ссылка, стилизованная под кнопку, сбивает выбор локатора);
внешний шум вроде поп‑апов перекрывает клики;
нестабильные ID в современных фреймворках ломают XPath.
Авторы намечают пути усиления: лучшее сохранение контекста между шагами, более устойчивые стратегии локаторов, интеграция семантического сопоставления элементов и адаптация промтов под длинные сценарии.
Что это значит для команд
GenIA‑E2ETest ускоряет старт автоматизации, особенно там, где много типовых потоков: порталы, админки, e‑commerce. Тестировщик формулирует сценарий на естественном языке, система генерирует рабочий код, а специалист доводит сложные места. Это снижает барьер входа и освобождает время для действительно трудных сценариев. Важно лишь обеспечить доступность страниц на этапе извлечения элементов и писать шаги однозначно.
Решение отличается от методов на основе исследований интерфейса и обучения с подкреплением: вместо автономной навигации здесь используется явный сценарий, а основной интеллект отдан на интерпретацию текста и точный маппинг на DOM. По сравнению с проприетарными платформами на записи действий подход открыт, прозрачен и хорошо стыкуется с Robot Framework.
Пока что это не волшебная кнопка “сгенерировать всё”, но в своей нише GenIA‑E2ETest уже полезен: быстро дает исполняемые E2E‑скрипты, поддерживает читаемость и требует немного правок. Следующий шаг — надежная работа с динамикой и контекстом. Если это удастся, автоматизация из текста станет рутиной, а не экспериментом.
***
Если вам интересна тема ИИ, подписывайтесь на мой Telegram‑канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.