
Всем привет! Меня зовут Ульяна Айкович и я исследователь БКС Мир Инвестиций. Сегодня я расскажу, как мы можем глубже анализировать время выполнения заданий, а также как измерить группы респондентов в немодерируемых UX тестах. В данной статье я разберу не только медиану и процентили для оценки времени, но и критерий Манна–Уитни — простой способ статистически сравнить две группы респондентов.
Когда исследователи хотят понять, насколько понятен интерфейс, мы прибегаем к немодерируемому юзабилити-тестированию. Измеряем метрики, количество ошибок и обязательно – время выполнения заданий. Как правило, на презентации мы говорим что-то вроде: “Среднее время выполнения составило 34 секунды”. Вроде бы выглядит как очевидная метрика и мы могли бы на этом остановится, но среднее время – далеко не всегда говорит о реальном пользовательском опыте. Корректный подход к измерению и анализу пользовательского поведения позволяет продукту не просто фиксировать метрики, а понимать, где сценарий начинает замедлять пользователя, на каких шагах мы теряем скорость и конверсию, и какие элементы интерфейса прямо сейчас блокируют достижение целевого действия
Часть 1
Мы привыкли считать, что время – очевидный индикатор сложности. Кажется логичным, что чем дольше человек выполняет задание, тем сложнее и непонятнее интерфейс. Однако время не только от качества дизайна, но и от привычек, внимательности, устройства, контекста, даже от того, позвонили ли пользователю во время теста.
Особенно ярко это проявляется в условиях немодерируемых тестов, когда у нас нет контакта с пользователем. Кто-то решает задачу за 20 секунд, кто-то за минуту, кто-то уходит за чаем и возвращается через пять. Как итог, перед нами среднее значение – круглое, красивое, но… бесполезное.
Тут нам на помощь приходят знания описательной статистики. Почему среднее – не показатель успешности выполнения заданий? Ответ прост: при расчете времени среднее значение подвержено влиянию крайних значений. Из-за этого суть исказиться: мы получим “усредненный” показатель, который учтет и молниеносных участников, и тех, кто оставил компьютер включенным на 10 минут. Такие респонденты “растягивают” распределение данных, что приводит к искажению.
На замену среднему значению у статистики в арсенале имеется медиана. Медиана – это значение, которое делит упорядоченную выборку пополам. Для наглядности я приведу пример среднего и медианы.
Перед вами данные времени выполнения заданий одного из сценариев в приложении БКС Мир Инвестиций в секундах:
6, 15.1, 18, 25, 14.3, 60, 280, 27.7, 34, 29.4
Среднее значение равно: 50.95 секунд
Медиану считаем половиной от упорядоченного списка, в нашем случае она лежит между двумя значениям и будет считаться как среднее между 25 и 27.7 : 6, 14.3, 15.1, 18, 25, 27.7, 29.4, 34, 60, 280, медиана равна: 26.35 секунд
Разница очевидна, медианный показатель значительно меньше среднего и не подвержен влиянию крайних значений, в нашем случае 6 и 280 секунд. Медиана позволяет нам оценить насколько быстро в целом участники справлялись с заданием.
Но как понять, кто из них составляет основную массу респондентов, а кто - не справился или справился плохо?
И снова нам помогает статистика! Мы можем использовать правило 5% и 95% процентиля, а именно посмотреть, какие наблюдения лежат в этом диапазоне данных и понять, какие данные важны, а какие – выбросы.
Давайте снова обратимся к нашему примеру с набором наблюдений:
6, 14.3, 15.1, 18, 25, 27.7, 29.4, 34, 60, 280
Чтобы посчитать 5% процентиль, нужно найти значение, ниже которого находится 5% наблюдений. Для нашей последовательности он равен 9.74 секунду. В расчетах мне помогает функция PERCENTILE в гугл-таблицах (в зависимости от метода расчёта процентиль может немного отличаться):
=PERCENTILE(A1:A10; 0.05)
1. А1:А10 - наш диапазон значений времени выполнения заданий
2. 0.05 - нужный нам процентиль, поделенный на 100
Проделываем аналогичную операцию и для 95% процентиля, он равен: 181 секунда

Итого, 90% наших наблюдений лежит в диапазоне от 9.74 до 181 секунды. Процентили помогли нам отсечь крайние значения из ряда: 6 и 280 секунд. И это действительно логично: человек, выполнивший задание за 6 секунд, вероятно, прокликал задание, а тот, кто прошел его за 280 - отвлекся или отошел от устройства.
Итак, мы научились считать медиану и считать процентили. Теперь мы можем считать успешное время прохождения и вычленять диапазон основных значений
Часть 2
А как же нам сравнить время выполнения заданий между двумя группами?
Давайте за основу возьмем пример с данными, описанными выше. К ней добавим наблюдения от группы клиентов брокера N:
БКС |
Брокер N |
6 |
403 |
15.1 |
110 |
18 |
21.6 |
25 |
79 |
14.3 |
38.6 |
60 |
56.9 |
280 |
36.1 |
27.7 |
45 |
34 |
40 |
29.4 |
38 |
Чтобы понять, клиенты какой группы быстрее выполняют одно и то же задание, можно использовать тест Манна-Уитни. Этот тест сравнивает порядок значений и работает с медианами распределений данных. Если у одной группы ранги в среднем выше, значит её время выполнения задания больше, и разница реальна, а не случайна.
К сожалению, в гугл-таблицах нет готовых формул для расчета Манна-Уитни, поэтому я предлагаю воспользоваться промптом для решения такой задачки
1. Заходим в ChatGPT и вводим такой промпт:
“Ты — эксперт по статистике, UX-исследованиям и аналитике поведения пользователей. Мне нужно сравнить две независимые группы по времени выполнения заданий, используя непараметрический тест Манна–Уитни (Mann–Whitney U test).
Требования к анализу:
1. Прими две выборки данных (группа БКС и группа Брокер N).
2. Отсортируй данные и присвой ранги.
3. Посчитай сумму рангов для каждой группы.
4. Рассчитай:
— U-статистику (меньшее из U1 и U2)
— среднее и стандартное отклонение U при H0
— z-значение через нормальную аппроксимацию
— p-value (двусторонний тест)
5. Покажи все промежуточные шаги.
6. Интерпретируй результат:
— есть ли статистически значимое различие (p < 0.05)
— какая группа выполняет задание дольше/быстрее
— насколько велик эффект (сдвиг распределений)
7. Дай вывод простым языком и отдельным блоком — вывод для продукта/UX:
— влияет ли интерфейс
— насколько различия практически важны
8. В конце сделай короткое резюме (2–3 строки).
Вот данные:
Группа БКС:
6, 15.1, 18, 25 , 14.3, 60, 280, 27.7, 34, 29.4
Группа Брокер N:
403, 110, 21.6, 79, 38.6, 56.9, 36.1, 45, 40, 38
Начинай анализ”
2. Получаем результаты:
Поздравляю! Мы получили статистически значимое различие между группами (p-value < 0.05)
Значимость равна 0.023, это значит, что клиенты из группы БКС быстрее выполняют задание по сравнению с клиентами из группы Брокера N.
При проведении статистического анализа важно учитывать, что для полноценного анализ метрик времени нужно достаточное количество данных.
В немодерируемых UX-тестах статистика начинает работать только при достаточном размере выборки.
Если мы говорим об описательной статистике — то есть о подсчёте медианы — минимально надёжные результаты появляются примерно с 20 участников.
Это порог, после которого медиана и процентили перестают «прыгать» от каждого нового наблюдения.
Для сравнении групп между собой, оптимально иметь от 30 до 50 человек на задание.
При таком размере выборки можно не только уверенно описывать данные, но и сравнивать группы — например, две версии интерфейса или разные сегменты пользователей — с разумной статистической устойчивостью.
Если участников меньше 15, статистика остаётся полезной, но скорее в ориентировочном, качественном смысле: она помогает увидеть тренд, но не даёт гарантий, что этот тренд повторится на более широкой аудитории.
Таким образом, грамотный анализ времени выполнения позволяет не только избежать ложных выводов, но и точнее понять, какие элементы интерфейса действительно сложны для пользователей, а значит — принимать более обоснованные решения в дизайне и продукте.