Мультивариантное (A/B/N, или сплит) тестирование – самый популярный способ тестирования почтовых рассылок. Этот инструмент доказал свою эффективность, но у него есть недостатки, связанные в первую очередь с тем, что тестирование и основная отправка разнесены во времени.
Мы в DashaMail решили со своей стороны повлиять на ситуацию и нашли другой подход к тестированию рассылок, позволяющий одновременно тестировать и оптимизировать отправку. Он использует байесовскую теорию, технологии нейросетей и машинного обучения – в итоге всё это позволяет увеличить открываемость писем в среднем на 20%.
Предыстория
Одним из инструментов для улучшения результативности email-рассылок является тестирование. На открываемость писем и вовлеченность аудитории влияет множество факторов, включая тему сообщения, имя отправителя, время рассылки и т. п.
Не так давно на одном из мозговых штурмов мы пришли к выводу, что столь популярные нынче алгоритмы машинного обучения могут изменить ситуацию в тестировании рассылок, а именно позитивно повлиять на открываемость и вовлеченность. Известное сплит-тестирование отнюдь не совершенно, как хотелось бы, а варианты для улучшений действительно есть.
A/B/N-тесты – основной вариант проверки гипотез в email-маркетинге. Главная сложность: результаты таких тестов всегда можно анализировать только постфактум. Это делает весь процесс достаточно длительным и трудоемким: сначала нужно разослать несколько вариантов рассылок, затем изучить результаты, оптимизировать параметры теста, разослать заново. И таких итераций может быть много.
Но что если создать способ одновременного тестирования и оптимизации? Именно эта мысль дала жизнь инструменту Gestalt-тестирования в DashaMail.
Байесовский подход: тестируем и оптимизируем на лету
Реакция подписчиков на разные варианты сообщений, полученные в разное время, может сильно различаться. Вариант-победитель, определенный в результате мультивариантного теста, при отправке основной рассылки может оказаться уже не таким эффективным.
Чтобы избежать этой проблемы и получить возможность учитывать все важные параметры рассылки в режиме реального времени, был использован байесовский подход к принятию решений и статистической оценке. Да, мы в DashaMail очень любим математику и теорию вероятности.
Байес vs A/B/N-тесты
С A/B/N-тестами, с одной стороны, все просто, а с другой – их точность может быть весьма сомнительной. Все кажется довольно незамысловатым: если нам надо протестировать, например, эффективность рассылок с разным дизайном, то, в случае двух вариантов, мы можем отправить одной части базы подписчиков один из них, а другой – второй. Затем проанализировать результаты.
Но надо понять, какое минимальное количество пользователей должны увидеть оба варианта, чтобы получить статистически значимые результаты. Ведь если достаточно выделить для теста всего 20% базы подписчиков, то на оставшихся 80% мы сможем запустить самый эффективный вариант письма и получить наилучший результат. Но не существует гарантий, что простое выделение двух групп по 10% даст верный результат. Если в одном варианте письма больше красного цвета, то может оказаться, что в группу из 10% пользователей случайно попали те, кто не любит этот цвет. При этом, если бы в тесте участвовало больше людей, этот вариант мог бы победить. Так мы подходим к понятию ошибок первого и второго рода – про них на «Хабре» достаточно статей. У этих ошибок есть своя вероятность возникновения.
В итоге анализ такого метода тестирования приводит к тому, что оно совсем не устраняет неопределенность, то есть тест не дает точного варианта ответа на вопрос «Как лучше?» Работа проведена, но понятнее не стало.
В противовес этому методу используются так называемые байесовские многорукие бандиты. Суть этого метода в том, что он позволяет не просто провести тест гипотез, но и получить ответ на вопрос, какая из них с большей вероятностью окажется эффективнее. И что важно: оценки динамически меняются так же, как в режиме реального времени определяются и размеры выборки для каждой гипотезы (т. е. сколько трафика/писем направить на тест конкретного варианта).
Представим ситуацию, что мы пришли в казино с игральными автоматами типа «однорукий бандит». Денег у нас ограниченное количество, время также не бесконечно. Нужно как можно быстрее определить «перспективный» автомат, при этом с минимальными расходами. Это задача о многоруком бандите. Существует множество вариантов ее решения, один из них основывается на семплировании Томпсона и теореме Байеса, подробно он описан в этой статье на «Хабре».
Применительно к рассылкам работает это следующим образом. В процессе тестирования двух или более гипотез (вариантов рассылки) мы не хотим отправлять слишком большое количество писем с заведомо проигрышными параметрами (в A/B-тестах нужно посылать равные доли). Но при этом хотелось бы и следить за такими вариациями тоже, потому что есть вероятность, что с течением времени они начнут отрабатывать лучше (сначала просто не повезло) и даже могут выйти в лидеры – и тогда на них пойдет больший трафик.
Данная теория и легла в основу нового инструмента, получившего название Gestalt-тестирование.
Основное отличие от традиционного A/B-тестирования: несмотря на то что большая часть писем уходит с вариантом-победителем, у других вариантов всегда до последнего остается шанс, ведь если изменится паттерн поведения подписчиков, то нужно вовремя среагировать и отправить наиболее подходящий ситуации вариант.
Гештальт-тестирование – это, кроме того, возможность использовать эмоциональный маркетинг в рассылках, создавая разные по эмоциональной окраске темы письма. Работает это так: email-маркетолог, отправляющий рассылку, задает базовую тему, затем можно выбрать перефразировки этой темы в разных эмоциях – вариантов может быть до десяти (страх, благодарность и т. п.).
Нейронная сеть перефразирует текст темы, используя заданные эмоциональные окраски, и предложит их на рассмотрение. При этом email-маркетолог может внести изменения на свое усмотрение.
Пример эмоций и соответствующих им тем, а также показатели открытий по каждой из них:
После старта система начинает группами отправлять письма – в каждом пакете содержатся все предложенные варианты. Вся рассылка идет около 10 часов, по пачке каждые полчаса. Как видно, инструмент не подходит для краткосрочных акций, которые нужно рассылать быстро. Скорее можно рассмотреть вариант среднесрочных акций или контентных рассылок. Статистика доступна по каждому варианту – таким образом сразу видно, что срабатывает лучше.
В примере ниже по открытиям и кликам лидирует вариант с темой, переписанной нейронной сетью в эмоции «любовь»: «Ты самая красивая в офисе! -30% на модели для офиса из нашей подборки». Однако он же показывает высокий среди остальных вариантов показатель отписок. Это может свидетельствовать о том, что контент письма оказался слабее темы или мы смогли зацепить внимание ранее спящего сегмента подписчиков.
Так как отправка рассылки с Gestalt-тестированием растянута во времени, автоматически также идет тестирование конкретного момента отправки. Причем сервис запоминает, на какую эмоцию рассылки и в какое время каждый конкретный подписчик реагирует лучше, и при проведении последующих отправок с использованием данного функционала будет подстраиваться под него. Поэтому со временем эффективность использования Gestalt-тестирования увеличивается.
Почему это работает
Идея нового инструмента тестирования заключается в том, что он позволяет учесть факт лучшего реагирования получателями на персонализированные и эмоционально окрашенные сообщения, нежели на сухой текст.
При этом в Gestalt-тестировании методы машинного обучения применяются ко всем вариантам тем. Наиболее успешный в ходе теста вариант задействуется активнее всего, но небольшой трафик получают и другие участники сравнения. Это позволяет мониторить паттерны поведения подписчиков с течением времени: нередко бывает так, что тема, дававшая хорошие показатели в одно время, в другое с треском проигрывает остальным вариантам. Если система «засечет» такую смену паттерна, то рассылка будет оптимизирована на лету для сохранения максимальной эффективности.
Паттерны поведения анализируются для каждого подписчика. На основе истории открытий конкретного получателя для него подбирается индивидуальное время отправки. Временные паттерны тоже могут меняться – например, у человека может смениться время начала и завершения рабочего дня и возможность проверить личную почту может возникать в другое время. Gestalt-функция автоматически подстраивается под такие изменения.
Важный момент: Gestalt-тест – метод, требующий определенного количества данных, иначе поддерживать высокую эффективность будет трудно. Именно поэтому он доступен только для баз на 10 тысяч адресов и выше.
Заключение: на какие результаты можно рассчитывать
Звучит логично, но на какие результаты можно реально рассчитывать с предложенным инструментом тестирования? Разберемся на примере. Вот так выглядит отчет об использовании Gestalt-функции для рассылки: в него входит итоговый показатель открытия (open rate, OR), результат относительно базовой темы и сравнение с показателями, которые были бы достигнуты при обычном мультивариантном тесте с одинаковым распределением писем по темам.
По статистике клиентов DashaMail, в среднем увеличение показателей открытия рассылок с Gestalt-тестами составляет 20%. Со временем эффективность использования данной функции растет, так как система обучается и запоминает, в какое время и на какую эмоцию лучше реагирует тот или иной подписчик, и в результате может повышать open rate (OR) рассылок в 1,5–2 раза по сравнению с базовой темой.
Ну и, возможно, у вас появился вопрос: при чем здесь термин «гештальт»?.. Нет, мы не закрывали свой гештальт, а решили разработать инструмент для экспериментов с формой рассылки. А в переводе с немецкого «гештальт» – это «форма». Таким образом, можно через эксперименты с формой прийти к идеальной рассылке.
Чтобы быть в курсе современных тенденций email-маркетинга в России, получать полезные лайфхаки и наши материалы – подписывайтесь на страницу DashaMail в Facebook и читайте наш блог.
suffix_ixbt
Спасибо, интересно.
А на каком минимальном кол-ве получателей писем можно проводить подобные тесты?
dashamail Автор
Минимальная база подписчиков для таких тестов составляет 10 000 (это ограничение в сервисе, при меньшей базе не сможете технически запустить). Если тестируете при таком объеме, то лучше использовать не более 2 дополнительных тем, т.е. базовую и 2 дополнительные к ней.