В стартапе на стадии Pre-Seed/Seed выбор прост: либо вы фанатично считаете деньги, либо умираете. В RankCaster AI мы уперлись в классическую ловушку масштабирования: больше фич = больше сценариев регрессии = раздутый COGS и медленные релизы.

Проверка каждого обновления занимала до 48 часов ручного труда. Мы решили, что платить за «прокликивание» дашбордов в 2026 году — это инженерный грех, и собрали автономную систему, которая имитирует действия тестировщика.

1. Стек: Прямое управление без фреймворков

Мы не стали тратить недели на Selenium или Cypress. Наш стек был развернут за один рабочий день и состоит из трех компонентов:

  • Claude Code: «Мозг» и оператор, принимающий решения на основе визуального контекста.

  • agent-browser (Rust + Chrome CDP): «Тело», которое управляет реальным браузером Chrome через протокол командной строки.

  • SSH / psql (Read-only): Прямой доступ к тестовой базе данных для сверки данных интерфейса с бэкендом.

Как мы это запустили: Установили agent-browser глобально, создали изолированные QA-аккаунты на бета-стенде и прописали один файл памяти с паттернами команд. Никаких тест-скриптов, никакого кастомного кода проверки под каждую кнопку.

2. Симулятор человека: Как агент «видит» продукт

Главное отличие нашего агента от обычного скрипта — он взаимодействует с интерфейсом как живой исследователь, а не через программные костыли.

  • Семантическая навигация: Бот считывает Accessibility Tree (дерево доступности). Он видит не координаты пикселей, а смысл: «поле ввода логина», «кнопка фильтра». Если мы сменим ID кнопки или перекрасим её, бот не сломается — он поймет назначение элемента и адаптируется.

  • Эмуляция физических действий: Бот не использует команду click(). Он имитирует движение курсора, нажатие клавиш и естественные задержки. Для систем защиты он неотличим от реального пользователя.

  • Исследовательское поведение: Если бот не видит нужного элемента, он сам догадывается проскроллить страницу или открыть выпадающее меню. Он может зайти в тупик, понять это, вернуться назад и попробовать другой путь.

  • Сквозная валидация: Нажав на фильтр, бот не ждет захардкоженного ответа. Он формирует SQL-запрос к базе и сравнивает цифры, которые «видит» на графике, с сырыми данными из таблиц.

Ограничения: нужно признать, что на сверхсложных интерфейсах (тяжелые графики на Canvas) эвристика может ошибаться. Поэтому агент закрывает критические пути и поиск логических аномалий, а специфические визуальные правки или сложные интеграции по-прежнему требуют контроля инженера.

3. Реальные баги и экономика процесса

Этот агент — скорее исследователь, а не просто кликер. За первую неделю он выявил:

  • Ошибка APR (14%): Бот нашел расхождение в расчетах, которое проявлялось только при специфическом наборе фильтров. Визуально цифры были на месте, но сверка с БД подсветила ошибку в логике API.

  • CSS Clipping: Конфликт высот в стилях обрезал столбцы на графиках. Бот проанализировал визуальный рендеринг и сам нашел причину в коде.

Экономический эффект:

  • Время регрессии: Снизилось с 48 часов работы команды до 10–40 минут автономной работы агента.

  • Стоимость проверки: Упала с ~$250 (время инженеров) до ~$5 (токены API) за полный проход.

  • Скорость отладки: Время от обнаружения бага до получения отчета с Root Cause (скриншот, лог, SQL-запрос) сократилось до 10–15 минут.

4. Безопасность и CI/CD

Мы понимаем риски работы AI с данными, поэтому внедрили три уровня изоляции:

  • Маскирование данных (Data Masking): Бот работает только с Shadow-копией базы. Перед копированием данных со стейджинга запускается ETL-процесс, который заменяет имена, почты и телефоны на случайные значения.

  • Симуляция контекста: Если клиент жалуется на баг, система извлекает параметры его окружения и создает «двойника» в изолированной песочнице. Бот воспроизводит сценарий там, не заходя в реальный аккаунт человека.

  • Интеграция в GitHub Actions: Бот встроен в цепочку деплоя. Каждая проверка запускается в отдельном контейнере. При расхождении данных или сбое самого агента система блокирует релиз и требует ручного подтверждения от инженера.

Итог

Это не полная замена QA, а способ убрать человеческий фактор из дебага и регрессии. Как только агент находит баг, мы фиксируем его детерминированным тестом на Vitest. Это и есть эффективный R&D в 2026 году: мы не нанимаем людей для рутины — мы пишем софт, который заменяет людей.

Лена, без обид. Мы просто очень любим наши деньги и твое время.

p.s. Спасибо всем комментаторам, мы учли замечания, связанные с неточными формулировками или вопросы про эффективность и внесли правки в статью.

Комментарии (75)


  1. funca
    20.03.2026 22:15

    У вас подписка на Claude Code? Сколько вам стоит прогон таких тестов? Как вы решаете вопрос с возможной утечкой конфиденциальных или персональных данных клиентов при использовании моделей во время траблшутинга?


    1. Dhwtj
      20.03.2026 22:15

      Думаю, рублей 5 за анализ каждого скриншота включая затраты на создание этой LLM системы. Окупается если для теста нужен ввод пользовательских данных (долго). Иначе проще глазами


    1. ZetaTetra
      20.03.2026 22:15

      Как вы решаете вопрос с возможной утечкой конфиденциальных или персональных данных клиентов

      Возможно, это тестовое окружение?


  1. Livadies
    20.03.2026 22:15

    Забавно,интересно кто исправляет галлюцинации агента?если тестировщика нет?


    1. Emelian1917 Автор
      20.03.2026 22:15

      Мы столкнулись почти с таким же вопросом: кто исправляет галлюцинации людей, именуемыми человеческими ошибками, из-за которых может легко пролететь тот или иной баг.


      1. Ankorra
        20.03.2026 22:15

        сравнивать галлюцинации ии и человеческий фактор - это сильно, конечно


        1. Emelian1917 Автор
          20.03.2026 22:15

          Сравнивать галлюцинации ИИ и человеческие ошибки и оценивать экономически потери от них — это правильно.


          1. Livadies
            20.03.2026 22:15

            Настоящий киберпанк, к сожалению LLM , модели не дают экономической выгоды...они могут лишь увеличить количество работы и ускорить какие то процессы...если Вы покажите пример хотя бы одного успешного долговременного кейса применения LLM в экономических и производственных процессах, то можно Ваши тезисы серьезно воспринимать...к сожалению Выгоды от них в реальнольной экономике нет,это всего лишь инструмент для увеличения производительности для специалистов которых ещё нет..а именно для операторов ИИ...


            1. Emelian1917 Автор
              20.03.2026 22:15

              Я описал реальный кейс сокращения времени и затрат.


      1. ExoticHadron
        20.03.2026 22:15

        А если без стёба? Какова частота ложно-положительных ошибок до и после? А ложно-отрицательных? Какова структура важности дефектов до и после? А то вы так весело стебёте некую Лену, а может, у вас просто не было дня Лены задач?


  1. hafewix
    20.03.2026 22:15

    как мы заменили QA тестировщика на автономного AI-агента за 24 часа

    а через год жрали своё дерьмо в перемешку со слезами. Простите, не удержался от сарказма)


    1. nikerossxp
      20.03.2026 22:15

      имхо, надо просто минусить такие слоп-статьи и интернет постепенно очистится.


      1. trezubec
        20.03.2026 22:15

        От чего ?


    1. Emelian1917 Автор
      20.03.2026 22:15

      Я думаю стоит понять о какой части процесса разработки идёт речь. Это не замена разработки и не замена программных тестов. Это просто имитиация пользовательского поведения, которая сама по себе не вносит изменений, а просто создаёт баг-репорты для проверки и фикса.