Большие данные и машинное обучение в ритейле: интервью с директором по онлайн-маркетингу OZON
Константин Баяндин о том, как машинное обучение предсказывает желания клиентов и помогает продавать больше.
Предсказательные модели — новый метод использования больших данных в онлайн-рекламе. С его помощью маркетологи пытаются спрогнозировать поведение пользователя задолго до того, как этот пользователь захочет что-то купить. Нечто подобное встречается в фильме «Особое мнение» с Томом Крузом, в котором экспериментальная программа предотвращает будущие преступления. Одним из первых предсказательные модели в России стал разрабатывать и внедрять Константин Баяндин, директор по онлайн-маркетингу и ценообразованию OZON. Он поделился своим опытом в подкасте «Alytics.Драйв».
Успейте купить корпоративный пакет COSSA-2025 со скидкой!
Cossa анонсирует главный рекламный формат на весь 2025 год: сразу 8 различных опций.
Пакет идеально подходит для онлайн-сервисов, стартапов, интернет-компаний и digital-агентств.
Успейте приобрести пакет до повышения цены!
— Начну с классического вопроса. Когда уже OZON станет прибыльным?
— Сейчас рынок ecommerce в России таков, что нужно инвестировать и захватывать всё бо́льшую долю, а отдача будет потом. Когда по стратегии нужно будет стать прибыльным, мы конечно же станем.
— Книги по-прежнему основной источник дохода или что-то изменилось?
— Книги до сих пор являются одной из топовых категорий в нашей компании, но я могу сказать, что они уже не первые. Есть категории, которые время от времени выходят на первое место. По данным на апрель на первом месте электроника, на втором — товары для дома и дачи.
— Твоя должность в OZON называется «директор по онлайн-маркетингу и ценообразованию». Я даже и не припомню, а есть ли похожие должности в digital?
Так получилось, что в OZON самые интересные вещи, связанные с бизнесом и с цифрами, лежат в трёх направлениях.
Во-первых, это конечно же онлайн-маркетинг, который про цифры, про digital.
Во-вторых, это про ценообразование, потому что там очень много можно построить интересных математических моделей.
В-третьих, это аналитика и большие данные. Собственно, этими тремя направлениями я и занимаюсь. Скажу так — микс ценообразования и онлайн-маркетинга очень-очень редкий. Честно говоря, не знаю больше других компаний в России или за рубежом, у которых один директор закрывает оба этих направления.
— Я прямо физически ощущаю, с каким удовольствием ты произносишь фразу «большие данные».
— Это еще со Стэнфорда. В работе я всё больше использую курсы, которые я брал не только в бизнес-школе в Стэнфорде, но и в соседнем здании — в школе инжиниринга, где мне нравились классы по машинному обучению и искусственному интеллекту.
— Из Стэнфорда ты вернулся со знаниями о больших данных и сразу же применил их в OZON?
— Да. Первое время у меня было ощущение, что я не столько работаю, сколько прохожу практику после обучения. Зато теперь большие данные — это основа, на которой держится маркетинг OZON. Мы чётко понимаем, какую аудиторию хотим таргетировать и для чего, и пытаемся их привлечь на наш сайт. В отделах онлайн-маркетинга и ценообразования основной фокус — это принятие решений на основе больших данных.
— Сколько человек занимается маркетингом OZON?
— Наш маркетинг состоит из двух больших частей. Одна из них — онлайн-маркетинг, которым управляю я, а вторая — бренд-маркетинг и маркетинговые коммуникации, которыми управляет Лариса Лаврова. Команды примерно одинаковые. В сумме нас 60 человек.
— Давай поговорим о практике использования больших данных. Теорию знают многие, а вот применить практически могут не все — не хватает либо реальных знаний, либо рук. Вы используете большие данные для чего?
— Например, для создания предсказательных моделей онлайн-рекламы. Гипотеза была следующей — мы хотим дифференцировать наши ставки в зависимости от ожидаемого эффекта той или иной аудитории.
В традиционной модели мы бы говорили про оптимизацию трафика по ключевым словам в контекстной рекламе. Взяли бы ключевик «купить смартфон» и попытались бы посчитать, сколько нам нужно заплатить, чтобы получить приемлемый ROI.
В больших данных подход другой. Мы не просто делаем одну и ту же ставку на ключевое слово «купить смартфон», а мы её дифференцируем для разных аудиторий. И такой de-averaging позволяет добиваться большего эффекта и получать лучшую отдачу от инвестиций в маркетинг.
— Как это происходит? Вы свою базу клиентов делите на определённые сегменты. Очень тонкая нарезка происходит, правильно?
— Традиционный маркетинговый способ — это именно создание каких-то сегментов. Маркетологи очень любят RFM-сегментацию, потому что она работает, и она простая, понятная. Мы тоже так делали 2 года назад. Сейчас применяем другой метод. Его суть в том, что мы собираем объясняющие переменные про наших покупателей: что покупал, как давно покупал, через какие каналы приходил, в какой географии находится и так далее. Таких переменных у нас набирается около трёхсот. Затем мы построили модель машинного обучения, которая на исторических данных обучается и по этим трёмстам показателям предсказывает вероятность будущей покупки по каждому из посетителей нашего сайта, который приходил к нам за последние три месяца.
Грубо говоря, мы каждую ночь запускаем наши сервера в data-центре, которые на основе той информации, которая обновилась по состоянию на полночь, рассчитывают эти показатели. У нас сейчас десятки миллионов уникальных посетителей, которые проходят через эту машину, и каждый из посетителей получает число, которое отражает вероятность покупки этим человеком, если он завтра придёт к нам на сайт. И дальше можно всех посетителей отсортировать по этому показателю и распределить на сегменты.
Таких сегментов у нас 20. Самых платежеспособных мы помещаем в 20-й сегмент, и затем уже по ниспадающей, с расчётом на то, что 10–12 сегменты — это покупатели, которые приносят среднюю для нас выручку за визит.
Эти сегменты мы загружаем в системы рекламы — Google, «Яндекс», другие площадки и далее уже работаем по модели cost per click (CPC). Конверсия в сегментах существенным образом отличается во всех рекламных площадках.
— Сколько времени заняло внедрение предсказательной системы?
— Мы этим проектом занимаемся полтора года. Пробный запуск сделали спустя две недели после начала работы. Всё делали руками аналитиков в SQL, потому что все данные в OZON исторически причёсаны, хорошо собраны и упакованы. А благодаря слаженной работе команды IT все данные были под рукой. В том числе была уже сделана полная интеграция с Google Analytics. Затем мы примерно полгода делали data science research, чтобы понять, какие переменные важны, какие не важны, какими моделями и как предсказывать. И ещё 2 месяца ушло на интеграцию в рекламную площадку. Интеграцию делали совместно с Google и хочу отметить, что мы многому у них научились.
— Что получили по результатам внедрения?
— Из ключевых результатов — это отрицательный churn rate в когортах, значительный рост в продажах через канал поисковой рекламы, мы видим увеличение доли мультикатегорийных покупок в контекстной рекламе. Доля людей, которые покупают больше чем в одной категории, в канале контекста значительно растёт с конца прошлого года. Наши когорты «улыбаются», как это любят говорить аналитики. Мы реактивируем больше покупателей в когорте, чем естественным образом они у нас отваливаются.
Наши продажи по не брендовому контексту растут трёхзначными числами, без ухудшения показателей ROI, и это очень хорошо. Благодаря тому, что мы работаем с нашей существующей аудиторией, стараемся увеличивать кросс-продажи в новых категориях.
Следующий наш рубеж — это стимуляция роста новых покупателей, благодаря нашему подходу к аудиториям и к данным. Есть сложности, потому что это люди, про которых мы мало чего знаем, они к нам только-только пришли. Но здесь тоже у нас есть идеи, как с этим можно поработать.
— Но это не единственное применение предсказательных моделей, верно? Что ещё делаете?
— Ещё используем предсказательные модели для персонализации сайта и маркетинговых коммуникаций. Если первая гипотеза была «давайте всех разделим по тому, насколько они много купят в будущем», то здесь гипотеза — «давайте попробуем предсказать, в какой категории с большей вероятностью люди купят в течение ближайшего времени».
Мы определили 28 основных категорий. Более-менее это первые категории в каталоге на сайте. И мы предсказываем внутри, какая из этих категорий имеет наибольший шанс к покупке для данного конкретного человека. Система изучает человека и генерирует страницу сайта специально для него. Или отправляет email, push, показывает баннер в зависимости от того, какие средства коммуникации, как мы считаем, этот человек предпочитает. Сообщение уходит тем людям, у которых наибольший шанс купить именно в этой категории. Подход в том, чтобы показывать тот креатив, который имеет отношение к категории товаров, наиболее перспективный для данного человека в данный момент.
— Я так понимаю, что вы эти данные вычисляете, опять же, на основе исторических данных, которые у вас есть. Вы это предрассчитываете для каждого конкретного пользователя, которого можете идентифицировать?
— Такой работающей махины, которая есть в первом кейсе, ещё нет, но мы к этому идём. Мы в паре-трёх месяцах от этого. Мы пока тестировали сегментные подходы, старались на основе данных генерировать сегменты.
И в том числе мы тестировали внешние триггеры. Сейчас на рынке есть крупные игроки, которые предлагают внешние триггеры про существующую аудиторию. Например, сегмент родителей, сегмент владельцев кошек, сегмент игроманов. Эти данные в принципе доступны, чтобы их попробовать, и мы пробовали такие вещи.
Мы видим, что использование такой категорийной информации позволяет увеличить отдачу в тот момент, когда человек на сайте, читает email или push-нотификацию, на 30–50% процентов и больше. Представьте, что промо email генерирует пару сотен миллионов рублей для компании, и вы можете из этих миллионов рублей сделать в полтора раза больше. Это сразу же больше выручки.
— Про маркетинг поговорили, давай теперь про цены. Как работаете с ценообразованием?
— Это мой самый любимый проект в OZON. Примерно 2,5 года назад мы поставили себе задачу — знать цены конкурентов на бо́льшую часть нашего ассортимента. Каждый день получаем информацию о четырёх сотнях тысяч товаров, которые мы продаём, по более чем сотне конкурентов. Это большой массив информации, который очень аккуратно, скрупулёзно собирается, складируется в базах данных и доступен для того, чтобы им пользоваться.
Если говорить про метрики, самая важная метрика — это какая доля наших продаж проходит со знанием того, какие цены на рынке. Мы стремимся увеличивать именно эту долю. Неважно, сколько ты товаров мониторишь, а важно, сколько продаж ты сделал, зная это. У нас две трети продаж проходит по тем товарам, по которым мы знаем хотя бы одну цену конкурента.
— Почему эта метрика так важна?
— Гипотеза очень простая: мы хотим в конечном итоге сделать работу по поиску хорошей цены на конкретный товар за наших покупателей. Мы сами мониторим рынок и сами стремимся сделать цену как можно ниже, чтобы мы были в нижней границе распределения цен на рынке. Конечно же у нас есть показатели того, сколько мы хотим заработать, потому что это всё-таки не благотворительность, а бизнес, но задача — быть именно конкурентными по отношению с самыми большими, крупными и важными игроками в каждой категории.
Гипотеза прекрасно подтверждается. Набор доли товаров, которые мы имеем в мониторинге, за последние два года проходил очень быстро. Мы начинали с 5–10%, а сейчас дошли до двух третей продаж. Мы видим, что это очень помогает нашему росту и в первую очередь росту в новых продажах, потому что, когда человек приходит первый раз и у него нет отношений с магазином, очень важно быть конкурентным по цене. Если ты привык к удобству, ты может быть и будешь готов переплатить, но чтобы набрать базу новых покупателей, очень важно быть конкурентным.
— А как реагируют производители на подобное? Был случай, когда один крупный производитель аудио не занимался контролем минимальной розничной цены и в результате выпал из товарной матрицы, так как с ним никто не хотел иметь дело. Вы сталкивались с подобным?
— Думаю, что определять ценовую политику должен сам бренд. А наша задача — быть конкурентоспособными по цене. Если наши конкуренты продают данный конкретный товар дешевле нас, мы должны продавать его так же, как и они. Мы не можем стоять одиноко в бою и говорить, что есть какие-то абстрактные рекомендации производителя, давайте их соблюдать.
— Понятно. В заключение беседы твой прогноз о том, как будет развиваться российский ecommerce в ближайшие 2–3 года.
— Будет происходить консолидация рынка и будет всё больше и больше борьбы, главным образом между крупными игроками. Крупные игроки так или иначе будут забирать долю у мелких игроков, может быть не продажи, но долю как минимум. Маленьким игрокам нужно будет либо уходить с рынка, либо встраиваться в платформы в виде мерчантов, либо на сайты, которые только этим и занимаются, либо, как OZON, который также позволяет продавать сторонним интернет-магазинам через наш сайт. Это то, что нас ждёт.
— Думаю, что небольшие интернет-магазины, которые имеют какую-то очень экспертную и узкую специализацию в конкретной нише, всё-таки останутся. У одного из моих знакомых есть магазин по продаже нижнего белья. Так вот у них продажи через email достигают 48%, что говорит о многом, но в первую очередь о востребованности магазина.
— Действительно, да. Мы не коснулись нишевых игроков, и они, конечно же, останутся. Если посмотреть на рынок США, то Amazon там взял треть всех онлайн-продаж, но другие две трети кто-то же продаёт? И это либо продажи через платформу eBay или AliExpress, где мелкие игроки, даже не будучи экспертами в чём-то, просто продают, либо продажи «из гаража». Никуда это не денется, это будет.
Мнение редакции может не совпадать с мнением автора. Если у вас есть, что дополнить — будем рады вашим комментариям. Если вы хотите написать статью с вашей точкой зрения — прочитайте правила публикации на Cossa.