06 марта 2023, 18:58

Как организовать A/B-тестирование на крупном проекте и где брать идеи для гипотез

Методы организации процессов в команде + шаблон, который поможет упорядочить информацию.

WIM.Agency, wim.agency

Как организовать A/B-тестирование на крупном проекте и где брать идеи для гипотез

Алёна Гаврилишена

Project manager WIM.Agency

Почему мы об этом рассказываем

Сделать один А/В-тест легко. Но если тестирование гипотез идёт непрерывно, информация теряется, тесты растягиваются во времени, а выводы становятся недостоверными.

Наш клиент — крупный игрок ecommerce с большим количеством рассылок и сегментов аудитории. Цель писем по сути одна — продажи, поэтому нужно постоянно придумывать новые способы интересной подачи информации. Ещё одна задача — непрерывный рост метрик эффективности рассылок (или, как минимум, удержание их на хорошем уровне).

Эффективная реклама с кешбэком 100%

Таргетированная реклама, которая работает на тебя!

Размещай ее в различных каналах, находи свою аудиторию и получай кешбэк 100% за запуск рекламы.

Подключи сервис от МегаФона, чтобы привлекать еще больше клиентов.

Узнать больше >>

Реклама. ПАО «МегаФон». ИНН 7812014560. ОГРН 1027809169585. ERID: 2W5zFGNJXGC.

Вместе с ростом объёма коммуникаций и количества А/В-тестов увеличилась и команда проекта. В один момент стало сложно уследить за тем, какие тесты проводят менеджеры и правильно ли они это делают.

Новый подход к процессам

Чтобы А/В-тестирование давало нужный результат, мы решили кое-что поменять.

1. Изменили процесс распределения тестов

Раньше менеджеры совместно придумывали гипотезы на месяц вперёд, затем каждый из них самостоятельно распределял тесты по своим рассылкам. Человек, ответственный за общий результат, — отсутствовал. Это привело к тому, что часть тестов проводилась некорректно, и мы делали поспешные выводы.

Случай из практики: мы тестировали гипотезу «Темы, похожие на статусы ВК, увеличивают OR». Часть команды брала неочевидные «статусы», которые не отражали суть теста, например:

Тема, А: До −80% на всё, что вы хотите подарить.
Тема В («статус ВК»): Если вам сказали, что ваш поезд ушёл…

Такой тест не мог ни подтвердить, ни опровергнуть гипотезу, потому что не соответствовал основной идее.

Поэтому мы:

централизовали процесс распределения тестов. Теперь за это отвечает один из менеджеров. Ещё он следит за корректностью выполнения тестов, проверяет сделанные выводы и презентацию для клиента;
установили KPI по количеству проведённых тестов в неделю — минимум 4;
если кто-то допустил ошибку, разбираем её всей командой, чтобы не повторять в будущем.

2. Начали искать неочевидные взаимосвязи в метриках

Обычно тестируют рост OR или CTOR. Но во время тестов могут измениться также GMV (общая стоимость товаров, проданных на площадке) и количество заказов. Или может вырасти CTOR, хотя тестировали OR, и наоборот. Поэтому важно следить не только за объектом тестирования, но и за другими метриками — иногда это помогает делать неочевидные выводы.

Пример 1. Мы проверяли гипотезу, что наличие блока меню в макете увеличивает CTOR. Для этого разработали блок-меню с пятью категориями. Мы не получили однозначного подтверждения гипотезы, зато GMV у макетов с блоком меню увеличился в среднем на 70%.

Макет с блоком меню

Пример 2. Выдвинули гипотезу: «Намёк на выигрыш в теме письма увеличивает OR». Макеты отличались только темами, но CTOR у писем с таким намеком в теме был выше в три раза.

Тема, А: Вы выиграли! (OR — 12%, CTOR — 24%)
Тема В: Ищем выгоду (OR — 9%, CTOR — 8%)

Макет с розыгрышем

Как мы переработали таблицы с тестами

Сначала мы просто записывали гипотезы и результаты тестов в Google-таблицу. В ней не было фильтров, формул и возможности делать графики по данным из-за множества объединённых ячеек. Все гипотезы (подтверждённые, опровергнутые и те, которые ещё не тестировали) были в одном месте, поэтому иногда дублировались. Для каждого нового месяца мы создавали новый лист, из-за чего некоторые тесты терялись по пути.

Когда мы решили навести порядок, начали с того, что добавили фильтры и формулу подсчёта статистической значимости гипотез. Это упростило работу менеджеров, ведь больше не нужно было переключаться между вкладками с таблицей и калькулятором.

Данные стали храниться в удобном формате:

а) без объединённых ячеек, чтобы при необходимости построить график или диаграмму;

б) с раскрывающимися списками, из которых можно выбрать нужный показатель, что экономит время менеджера и стандартизирует ввод данных;

в) все ячейки с числами переведены в числовой формат, что позволяет внедрять формулы.

Фрагмент старой таблицы

Так таблица выглядит сейчас

Кое-что вынесли на отдельные листы.

1. Незавершённые гипотезы с датой последних тестов. Если с момента последнего эксперимента прошло больше трёх месяцев, гипотезу нужно тестировать заново, потому что за это время пользовательские предпочтения могли измениться.

Например, полтора года назад мы подтвердили гипотезу, что слово «распродажа» в теме письма увеличивает OR. Недавно мы снова взяли этот приём в работу, но увидели, что показатели падают. Повторное тестирование гипотезы дало обратный результат — она не подтвердилась. Скорее всего за это время у пользователей произошло пресыщение и они перестали реагировать на такую тему.

2. Завершённые тесты, где указано, подтвердилась гипотеза или нет. Такая таблица помогает всей команде: менеджеры других проектов, дизайнеры и копирайтеры могут почерпнуть там новые идеи, чтобы увеличить метрики.

Таблица с завершёнными гипотезами

3. Календарь тестирования. Помогает команде и клиенту быстро отследить актуальные тесты в работе. В календаре записаны запланированные гипотезы на ближайший месяц, а также количество тестов, которые осталось провести (чтобы подтвердить гипотезу, нужно минимум 3 теста с однозначными результатами; если три теста не помогли сделать конкретный вывод, их число нужно увеличить до 5).

Календарь тестирования

По ссылке вы найдёте шаблон таблицы, которую мы теперь используем. Она полностью готова к работе: отформатированы все листы и добавлена формула статистической значимости. Делайте копию и попробуйте новый подход к А/В-тестам.

Как генерировать новые гипотезы

Мы создаём новые гипотезы двумя способами.

Масштабируем собственные удачные кейсы

Для этого мы смотрим результаты рассылок за прошлый месяц и выделяем 4 группы имейлов: высокий и низкий OR, высокий и низкий CTOR. Смотрим на то, что у нас получилось, и делаем предположения, что именно повлияло на успех рассылки. Указание скидки в теме письма? Анимированный баннер? Свои догадки формулируем в гипотезу и тестируем её.

Анализируем опыт конкурентов

Второй способ — подписаться на рассылки конкурентов или крупных брендов, которые вам импонируют. Нужно проанализировать рассылки на предмет часто использующихся или просто интересных приёмов. Например, мы видим, что компания часто использует в теме письма слова «ваш», «для вас», тем самым подчёркивая пользу для подписчика. Значит, можно выдвинуть гипотезу, что OR будет выше, если использовать в теме письма слова «ваша скидка» или «промокод для ваc».

Как понять, какую гипотезу тестировать в первую очередь?

Вы проделали большую работу и придумали с десяток гипотез, как увеличить показатели, а теперь не знаете, с какой начать? Советуем провести ранжирование гипотез по следующему алгоритму:

1. Определить оптимальное количество гипотез, которые вы будете тестировать в месяц. Желательно, чтобы они не перетекали из одного месяца в другой, поэтому лучше брать меньше гипотез, но доводить их до конца.

2. Сделать таблицу для ранжирования, в которой будут 3 столбца: гипотеза, ценность и сложность.

3. Проставить напротив каждой гипотезы степень ценности и сложности от 1 до 3, где 3 — очень высокая, 1 — низкая. Высокая ценность означает, что потенциально эта гипотеза может повлиять не только на рост CTOR и OR, но и на продажи. Высокая сложность означает, что реализация теста потребует много ресурсов.

4. Распределить гипотезы, исходя из полученных результатов. На первое место выйдет гипотеза, у которой высокая ценность и низкая сложность. С неё и нужно начинать тестирование.

Гипотеза	Ценность: 3 — высокая 2 — средняя 1 — низкая	Сложность: 1 — высокая 2 — средняя 3 — низкая	Рейтинг
Гипотеза №1	3	3	33
Гипотеза №2	3	2	32
Гипотеза №3	2	2	22
Гипотеза №4	2	2	22
Гипотеза №5	1	1	11

Как выглядит таблица для ранжирования гипотез

С новым подходом к проведению А/В-тестов мы не только увеличили их результативность, но и повысили эффективность команды, а также доверие клиента. Забирайте в работу, если было полезно.

Мнение редакции может не совпадать с мнением автора. Ваши статьи присылайте нам на 42@cossa.ru. А наши требования к ним — вот тут.