Каждый месяц мы проводим сотни тестов и экспериментов, чтобы понять, как сделать онлайн-шоппинг легким и вдохновляющим для пользователя.

27 июня мы собрали аналитическую вечеринку, на которой обменялись опытом, поговорили об особенностях гео-тестов, подходах к ускорению A/B-тестов, а также обсудили оценку сложных контент-продуктов.

Видео и презентации докладов

Подходы к ускорению A/B-тестов для Data-продуктов

Анжелика Шахурина, Team Lead of Product analytics в Lamoda Tech

При оценке наших Data-продуктов — например, рекомендательных систем — недостаточно смотреть на добавление товаров в корзину. Нам важно увидеть фактическую прибыль. При этом одна из особенностей сегмента Fashion E-commerce – длинная цепочка взаимодействия пользователя с продуктом. Тесты новых фичей могут затянуться на месяцы, но есть несколько подходов к их ускорению. О них и рассказала Анжелика.

Слайды

Гео-тесты: инструкция по применению

Иван Уваров, Product analyst в Lamoda Tech

Для тестирования изменений в некоторых продуктах приходится делить на контрольную и экспериментальную группы не пользователей, а целые города. В нашем случае гео A/B-тесты понадобились для анализа эффекта от изменения условий доставки. Как мы подходили к задаче дизайна гео-тестов? Об этом Ваня рассказал в докладе.

Слайды

Как оценить эффективность контент-продукта, если страшно проводить A/B-тест? 

Сима Гиззатуллина, Product analyst в Lamoda Tech

Discovery — контентный продукт, вдохновляющий пользователей на создание своего стиля. Эффективность таких продуктов очень сложно измерить. Они не приносят прибыли напрямую и отсюда возникает вопрос: «А есть ли от них толк?».

В докладе Сима поделилась опытом, как мы решали задачу по оценке продукта Discovery, какие подходы пробовали и как проводили исследование.

Слайды

Фото и ссылки

Ищите себя на фотографиях с мероприятия.

Спасибо всем, кто был с нами в этот вечер, задавал вопросы в чате трансляции и обменивался мнениями на офисной кухне!

Обязательно подписывайтесь на телеграм-канал Lamoda Tech, чтобы не пропустить наши новые события.

Комментарии (5)


  1. panteleevia
    11.07.2024 05:13

    Коллеги, добрый день. Второй раз пересмотрел встречу, первый раз присутствовал онлайн. И сейчас получше вникнул в материал по ускорению A/B-тестов, задался вопросом: может всё таки таро будем раскладывать?)

    Давайте немного абстрагируемся, чтобы понять, что вы пытаетесь сделать.
    Есть что-то, что вы пытаетесь улучшить на сайте. На выходе вы ожидаете увидеть увеличение какой-то метрики. В нашем случае, возьмем в качестве примера рекомендательную систему, мы меняем её и ожидаем, что NMV вырастет.

    Чтобы проще было понять, давайте представим что у нас датасет из 5 фичей, где 4 - это фичи, а 5 таргет. И вот вы обучили CatBoost. Что такое CatBoost? Это градиентный бустинг деревьев решений. Что такое дерево решений?) Это if else, который выстраивается в момент обучения.


    И вот мы запускаем обучение: первые 3 фичи имеют какой-то вес, потому что они используются, а 4 фича (наше нововведение) всегда будет иметь нулевой вес в трейн датасете. Несложно догадаться, что если заглянуть в модельку и как там деревья выстраиваются, мы увидим что блока if else с 4 фичей просто нет. А потом вы закидываете в модель датасет, где мало того что 4 фича не нулевая, так она ещё и оказала (допустим) какое-то влияние на таргет.

    В нашем случае, количество фичей и там и там одинаковое, но! Есть фича, которую ввели (нововведение) и которая оказала влияние на таргет и она находится за пределами датасета и модель её никогда не видела. Какова реальная предсказательная сила модели?)

    p.s. Кстати, ребят, а где моя сумочка за вопрос Симе?)


    1. lika_shah
      11.07.2024 05:13
      +1

      Добрый день!
      Мы будем использовать модель и те факторы из нее, на которые влияют продукты ранжирования/рекомендаций и по которым будет валидно сравнивать алгоритмы между собой
      Если катится стороннее изменение/нововведение за пределами дата-продуктов (например, меняется способ оплаты/доставки), то именно эту методику применять не будем


      1. panteleevia
        11.07.2024 05:13

        Так любое изменение, в том числе в дата-продукте будет вносить изменение в таргет (гипотетически), только мы не сможем предсказать это). Это же можно легко синтетически доказать. Берём датасет и создаём в ним фичу, где все значения будут нулевые. Делаем PCA этой фичи с таргетом. Учим модель. Получаем скор.
        Потом берём этот же датафрейм, только значение фичи ставим на 0.99. Делаем PCA фичи с таргетом. Делаем предикт. Делаем выводы.

        А ещё нагляднее будет ставить значение фичи рандомом от -0.99 до 0.99 - т.е. имитировать, что на разных людей новая фича (изменение в старой) повлияла по разному. Т.е. изменили что-то в дата-продукте и получили разный отклик от людей, так ведь и происходит. И модель ничего не сможет предсказать в данном случае, к сожалению. Не потому что она плохая, а просто это данные будут из разных генеральных совокупностей.

        Вообще, если уж пошёл разговор об ускорении A/B-тестов почему нельзя воспользоваться базовым решением - просто снизить порог статистической значимости с 0.05 до 0.01 (условно)?

        Вообще, идея клёвая, честно. Но вызывает очень много вопросов возможность модели предсказывать что-либо. Тут либо выкатывание новой фичи (или изменение в старых) не повлечёт никакого результата и модель просто выдаст что-то вроде тренда, либо все предсказания модели будут из разряда "может да, а может нет".


    1. vvmax
      11.07.2024 05:13

      Спасибо за интерес и активность на митапе! Сумочка обязательно приедет)


      1. panteleevia
        11.07.2024 05:13

        Всё ок, это скорее шутка была) а так да - приятно было бы иметь что-то с логотипом LaTech)