Как использовать линейную регрессию для оценки эффективности рекламы у инстаблогеров и по-новому взглянуть на интеграции. Читайте на Cossa.ru

15 сентября 2020, 14:45

Как использовать линейную регрессию для оценки эффективности рекламы у инстаблогеров и по-новому взглянуть на интеграции

Ребята из онлайн-площадки для продавцов и покупателей Flowwow вывели формулу для оценки влияния рекламных интеграций с блогерами на органический трафик. Читаем, считаем и высказываемся.

Как использовать линейную регрессию для оценки эффективности рекламы у инстаблогеров и по-новому взглянуть на интеграции

В 2020 году мы, онлайн-площадка Flowwow, начали активно сотрудничать с блогерами в Instagram и YouTube, а также пробовать новый для нас рынок подкастов. За это время получилось сделать около 30 интеграций — неплохо для старта.

Перед запуском рекламы такого формата встал резонный вопрос: «Как правильно замерить эффективность взаимодействия?» В этой статье расскажем, как мы выводили формулу, которая помогла взглянуть на интеграции по-новому.

Дарю промокод!

Мы привыкли считать реальные конверсии. Эфемерные охваты, лайки и комментарии нас интересуют мало. Приемлемые для нас показатели эффективности — это объём выручки и доля рекламных расходов.

Эффективная и выгодная реклама с сервисом от МегаФона

Широкий выбор рекламных каналов, более 100 параметров по интересам, подробная аналитика и другие возможности уже ждут в Личном кабинете. А еще кешбэк 100% за запуск рекламы в первый месяц и еще 10% — каждый месяц.

Узнать больше >>

Реклама. ПАО «МегаФон». ИНН 7812014560. ОГРН 1027809169585. ERID LjN8K1P7y.

Никого не удивим: сначала мы считали выручку по промокодам, а оценивали стоимость привлечения клиента по простой формуле (её же мы обычно применяем для таких PPC-каналов, как Яндекс.Директ и Google Ads):

ДРР = (I + P)/Rp, где:

— затраты на интеграцию;
— затраты на промокоды;
Rp — выручка, полученная с промокодов.

Блогеры делились промокодами, подписчики охотно совершали покупки. При этом мы стали замечать рост заказов по органическому трафику из поисковых систем, а также из Apple Store и Google Play.

В ходе общения с клиентами обнаружили, что некоторые из них узнавали о нашем сервисе благодаря интеграциям с блогерами, но забывали активировать промокод. Мы предположили, что интеграции с блогерами положительно сказываются на органическом трафике. Но насколько сильно это влияние и какую дополнительную ценность нужно атрибутировать интеграциям с блогерами? Решили разобраться в этом вопросе и купили учебник по математической статистике.

Как посчитать/измерить эффективность интеграции с блогером - промокоды

Влияет ли охват на объём органического трафика?

Сначала мы посмотрели, есть ли зависимость между охватом публикации и объёмом органических заказов. Для этого хорошо подходит диаграмма рассеяния. Построить её можно в Excel или в Python при помощи библиотек Pandas и Matplotlib. Выглядит она вот так:

Как посчитать/измерить эффективность интеграции с блогером - есть ли зависимость между охватом публикации и объёмом органических заказов

В нашем случае по вертикальной оси (Y) — объёмы заказов по органическому трафику, а по X — охваты блогеров. Точка на пересечении значений — это дни, в которые проходили интеграции. Чем точка правее, тем шире был охват, чем выше — тем больше заказов было совершено в этот день.

Цветочный бизнес имеет ярко выраженные сезонные всплески (например, 14 февраля и 8 марта), поэтому мы убрали пиковые даты.

Как посчитать/измерить есть ли зависимость между охватом публикации у блогера и объёмом органических заказов - цветочный бизнес

В реальных условиях практически всегда бывает так, что в данных появляются экстремально высокие или экстремально низкие значения. Из-за этого точки уплотняются влево или вправо. Выводы по такой диаграмме сделать крайне трудно, поэтому рекомендуется убирать выбросы: в нашем случае это интеграция с охватом в 2,5 млн пользователей.

Как посчитать/измерить есть ли зависимость между охватом публикации у блогера и объёмом органических заказов - цветочный бизнес

Как видно на диаграмме выше, явной зависимости между охватом и органическими заказами не наблюдается. Более того, на графике видно, что в некоторые дни без интеграций (точки в крайней левой части) органических заказов было больше, чем в дни с интеграциями. Для наглядности уберём из диаграммы периоды, в которые не было интеграций.

Как посчитать/измерить эффективность интеграций с блогерами - цветочный бизнес

И здесь, на данных без нулевых значений, также не видно явной зависимости: точки расположены хаотично.

Далее рассмотрим наличие зависимости между охватом и заказами по промокодам. В нашем случае по вертикальной оси (Y) — количество заказов по промокодам, а по X — охваты блогеров.

Как посчитать/измерить эффективность интеграций с блогерами - зависимость между охватом и заказами по промокодам

Корреляции нет: большой охват блогера не гарантирует большие объёмы заказов. Следующий шаг: проверим, насколько сильна зависимость между объёмом заказов по промокодам и органическими заказами.

Как посчитать/измерить эффективность интеграций с блогерами - зависимость между объёмом заказов по промокодам и органическими заказами

Как видно, точки на этой диаграмме сконцентрированы более плотно вокруг прямой линии тренда. Это значит, что есть шанс проследить положительную корреляцию. Чтобы оценить её, воспользуемся методом ранговой корреляции Спирмена (в этом нам поможет специальная библиотека scipy.stats в Python).

Как посчитать/измерить эффективность интеграций с блогерами - метод ранговой корреляции Спирмена

Мы получили значение ~0,59. При этом p-критерий близок к нулю (а это значит, что у статистических данных низкая вероятность ошибки). Интерпретировать полученные значения можно с помощью этой таблицы:

Как посчитать/измерить эффективность интеграций с блогерами - метод ранговой корреляции Спирмена - таблица

В нашем случае можно сделать вывод, что между заказами по промокодам и органическими заказами есть заметная корреляция. Чтобы сравнить, мы посчитали зависимость между охватом блогеров и заказами по промокоду: значение 0,27 подтверждает, что корреляция слабая.

Как рассчитать дополнительную ценность

Теперь, когда мы знаем, что между заказами по промокоду и органическими заказами есть зависимость, нужно рассчитать дополнительную ценность от интеграции. В этом нам поможет метод регрессионного анализа.

Так выглядит формула линейной регрессии: Y = а + b1X1 + b2X2 + b3X3...+ e.

Чтобы построить линию регрессии для наших значений, необходимо рассчитать коэффициенты a и b. Для расчёта мы воспользовались специальной библиотекой Phyton sklearn.linear_model.

Как посчитать/измерить эффективность интеграций с блогерами - как рассчитать дополнительную ценность от интеграции

Среди преимуществ построения регрессии в sklearn — возможность автоматически разделить выборку на обучающую и тестовую и оценить реальную погрешность прогноза. В нашем случае это позволит оценить, насколько точно предсказывается прирост органического трафика при заданных значениях заказов по промокодам.

Полученные коэффициенты:

  • a = 365,88;

  • b = 11,58.

Далее визуально оценим, насколько высока точность нашего прогноза:

Как посчитать/измерить эффективность интеграций с блогерами - точность прогноза

Затем рассчитаем среднеквадратичную ошибку при помощи библиотеки Numpy:

Как посчитать/измерить эффективность интеграций с блогерами - среднеквадратичная ошибка

Чтобы понять, насколько высока погрешность нашего прогноза, необходимо значение среднеквадратичной ошибки разделить на среднее значение (Mean) тестовой выборки: 152/423 = 35,9 %.

Таким образом, доля ошибки от среднего значения составляет 35,9 %. Это довольно высокая относительная погрешность. И мы попробовали её снизить.

Повысить точность прогноза можно, применив метод множественной регрессии и добавив в расчёт дополнительные признаки. Признаки (или фичи) можно искать, также визуализируя данные при помощи диаграмм рассеяния и оценивая корреляцию между значениями признака и значением, которое мы хотим спрогнозировать.

После некоторых исследований мы добавили к нашему датасету дополнительные предикторы:

Как посчитать/измерить эффективность интеграций с блогерами - предикторы

  • influene_last_week — количество заказов в аналогичный день на прошлой неделе по промокодам;

  • organic_last_week — количество заказов в аналогичный день на прошлой неделе по органическому трафику.

Перед тем, как добавить дополнительные фичи в уравнение регрессии, мы убедились, что у них есть заметная корреляция с показателем органического трафика, который мы пытаемся предсказать:

Как посчитать/измерить эффективность интеграций с блогерами - корреляции с показателем органического трафика

Далее при помощи sklearn аналогично рассчитываем множественную регрессию и считаем среднеквадратичную ошибку:

Как посчитать/измерить эффективность интеграций с блогерами - квадратичная ошибка

Как посчитать/измерить эффективность интеграций с блогерами - квадратичная ошибка

Root Mean Squared Error: ~102. Считаем процент погрешности: 102/423 = ~24 %.

Итак, нам удалось увеличить точность прогноза до 24 (на 11 пунктов). Вероятно, это не предел, но остановимся пока на этом значении.

Мы нашли коэффициенты для формулы множественной линейной регрессии, которая описывает зависимость между органическими заказами и заказами по промокодам, а также средним значением по органическим заказам за последние 5 дней. Подставим полученные значения коэффициентов a и b в наше уравнение регрессии:

Y = 168,32 + X1*5,03 + X2*(-0,84) + X3*0,58.

Напомним, что всё это мы делаем для одной единственной цели: вычислить дополнительную ценность от интеграций с блогерами, которая скрыта в органическом трафике. Как это уравнение нам поможет? Всё предельно просто.

В X1 подставляем количество заказов по промокодам.

В X2 подставляем значения по заказам с промокодов в аналогичный день на прошлой неделе.

В X3 указываем количество заказов в аналогичный день на прошлой неделе.

Пример расчёта

Теперь рассчитаем Y (или прогноз органических заказов) на примере одного реального дня.

26 февраля мы получили 10 заказов (X1 = 10) по промокодам от блогера. При этом 247 заказов пришло из органики. Неделю назад от этой даты было 0 заказов по промокодам и 240 органических заказов (X3 = 240).

Подставляем в формулу и получаем:

Y1 = 168,32 + 10*5,03 + 0*(-0,84) + 240 = 359.

Теперь рассчитаем то же самое, но вместо 10 в X1 подставим 0, как если бы у нас не было заказов по промокодам. И в X2 также подставим 0.

Получим:

Y2 = 168,32 + 0*5,03 + 0*(-0,84) + 240 = 309.

Посчитаем разность Y1 — Y2 = 359 — 309 = 50.

50/359 = 14,02%.

14,02% — это и есть доля от органического трафика, которую мы можем дополнительно отнести к интеграции с блогером. Таким образом, полученный коэффициент умножаем на фактическое значение органических заказов.

14,02 %*247 = ~34 дополнительных заказа.

10 + 34 = 44 заказа.

Так как нам интереснее оценить объём выручки, полученное значение (44 заказа) можно умножить на средний чек по органическому трафику. Также важно понимать, что это только прогнозная оценка с погрешностью, поэтому рекомендуем дополнительно умножать полученный результат (34 заказа, вытащенные из органики) на поправочный коэффициент. В нашем случае, учитывая относительную ошибку в 24 %, это может выглядеть так:

0,76*34 = ~26

26 + 10 = 36

Согласитесь, 36 и 10 — это большая разница, которая действительно позволяет по-новому взглянуть на интеграцию.

Полученные в этой статье коэффициенты подходят только под наш продукт и рассчитаны на основе нашей внутренней статистики. У вас могут быть совершенно другие зависимости и коэффициенты. Помимо оценки дополнительной ценности интеграций с блогерами, вы можете использовать этот метод и для других каналов, в том числе и контекстной рекламы. Желаем удачи и успешных интеграций!

Мнение редакции может не совпадать с мнением автора. Ваши статьи присылайте нам на 42@cossa.ru. А наши требования к ним — вот тут.

Телеграм Коссы — здесь самый быстрый диджитал и самые честные обсуждения: @cossaru

📬 Письма Коссы — рассылка о маркетинге и бизнесе в интернете. Раз в неделю, без инфошума: cossa.pulse.is

✉️✨
Письма Коссы — лаконичная рассылка для тех, кто ценит своё время: cossa.pulse.is