Всем привет. Ранее мы писали, что в ноябре-декабре 2019 года мы провели online-Хакатон по созданию аналитических решений в Power BI на основе данных myBI Connect. Мы получили 12 работ, их можно увидеть на странице результатов Хакатона.
А это первый пост в серии обзоров работ победителей, начнем с 3-его места. (примечание редактора;).
Привет! Меня зовут Оюна Любимова.
В ноябре-декабре 2019 года команда myBI Connect запустила свой первый хакатон по BI-аналитике. Для нашей команды это тоже был первый хакатон, в котором мы приняли участие. Мы очень старались и – заняли третье место. В этой статье мы хотели бы поделиться тем, как рождалось наше решение.
Про нас
Пара слов о нашей команде:
Серёга (посередине) – наш батька, инициатор участия в хакатоне, ведущий BI-разработчик.
Илюха (справа) – тоже BI-разработчик, но еще не батька (прости, Илюха).
Оюна (слева) – data scientist с прошлым в ecommerce.
Мы коллеги, работаем над развитием BI-системы в нашей компании LC Group. Это новосибирская IT-компания, специализирующаяся в области финансовых технологий. Она входит в международный холдинг Lime Credit Group, работающий в четырех странах мира.
Про задачу
Наше участие началось как и у всех: мы оставили заявки, посмотрели вебинар, оставили финальные заявки и потом получили доступ к данным. Сначала было немного непонятно, зачем столько предварительных шагов. Во многих других соревнованиях все намного проще – зарегистрировался, скачал данные и решаешь. Но после того, как мы познакомились с данными, все встало на свои места: такой многоступенчатой регистрацией организаторы обеспечили наличие осмысленной воронки “продаж” в задаче.
Задача оказалась реально крутая и интересная. До окончания регистрации 15 ноября ребята из myBI Connect продвигали хакатон в интернете с помощью рекламы, партнеров, собственных ресурсов. Участникам хакатона нужно было построить дашборд и с его помощью провести анализ эффективности продвижения, дать рекомендации, как можно было сделать лучше. Одно из обязательных условий – сквозная аналитика. Отдельная благодарность организаторам, что для связки уже были подготовлены все id-шники, и сами таблицы были тоже морально и физически готовы к сквозной аналитике.
Про решение
Часть 1. Про рекламные каналы.
Начинали мы, наверное, так же, как и многие, с самого известного и популярного метода анализа данных – метода пристального вглядывания. Сначала смотрели данные, потом – предложенные модели для некоторых источников.
Дальше мы начали разрабатывать схему метрик (численные показатели) и параметров (качественные срезы). Получилось, что эту схему можно записать достаточно компактно.
Параметры:
- Источники трафика (Иерархия вида: Канал, Источник, Кампания, Объявление, Ключевое слово)
- География (тоже иерархия: Страна, область, город)
- Устройства
- Менеджеры
- Этапы воронки (!) – этот показатель обязательно так или иначе должен быть задан. Мы поняли, что нам нужны все время разные срезы, поэтому наплодили для них разных мер, а не пользовались параметром.
Метрики:
- Количество “клиентов” на данном этапе воронки
- Конверсия с первого этапа воронки
- Конверсия с предыдущего этапа воронки
- Стоимость клиента с данного этапа воронки
Отдельной метрикой стоит отетить суммарный рекламный бюджет.
Дополнительной сложностью в модели является необходимость так или иначе учесть атрибуцию. Каждый раз, связывая источник трафика и клиента, необходимо понимать, с помощью какого типа атрибуции мы это делаем. Мы начали со стандартной атрибуции по последнему значимому клику, которая используется в Google Analytics по умолчанию.
Так появилась наша первая страница дашборда. Она включает основные KPI, которые, на наш взгляд, наиболее важны для первичной оценки проекта, и воронку, которая дает понимание о том, насколько успешным было взаимодействие с клиентами после рекламы. И из этой же воронки мы обнаружили следующий инсайт. Есть три существенно отличных группы этапов:
- Первичная заявка и подтверждение email
- Посещение вебинара, финальная заявка и выполнение задания. Последнее название немного путает, но по сути это выдача доступов к данным. Загадочный персонаж, которому не дали доступы после отправки финальной заявки, оказался просто тестовой заявкой.
- Доступ к данным. Участники, которые подключились к базе.
Отсюда следует, что вместо шести этапов можно рассматривать три без особой потери информации.
Отдельно отметим, что здесь в воронке нет самого первого этапа: посетитель сайта. Мы осознанно не стали добавлять его на первый лист, так как если его добавить, сама воронка перестает быть смотрибельной. И также сама метрика “количество посетителей” мало что говорит нам об эффективности – ведь важны итоговые результаты (заявки). Одна из метрик, завязанная на посетителях и говорящая об эффективности, вынесена в блок с KPI – это конверсия сайта.
В принципе, уже при взаимодействии с первым листом, можно было было прикинуть, какие каналы оказались самыми заявко-приносящими, но это неудобно. Нужен срез по каналу. Именно из этих соображений появился второй лист, на котором явно видно, какие три канала принесли наибольший вклад: партнеры, соцсети и реклама. Это определило содержание следующих трех листов.
Более детальный анализ каналов мы сделали в формате таблиц. С одной стороны кажется, что таблицы получились слишком громоздкие и плохо читаемые, с другой стороны – именно этот формат позволил нам найти интересные факты. Почему именно таблицы? Потому что можно в одном месте сравнить несколько метрик по разным кампаниям. Например, бросив один взгляд на таблицу, можно гордо заявить: реклама в КМС Google – просто слив бюджета. Действительно, цена первичной заявки – самая высокая, конверсия – минимальная, и никакой дешевый клик это не перекрывает.
Таким образом, у нас появилось два кандидата на отключение: КМС Google и MyTarget (контекстная реклама показала себя явно лучше, чем таргетированная). Но:
Надо проверить, не помогают ли эти каналы каким-нибудь другим, которые мы посчитали успешными. Для этой проверки был сделан лист “Многоканальность”. Мы воспользовались статистикой Google Analytics и этого оказалось достаточно, так как подозрительные каналы не оказались задействованы в привлечении первичных заявок. Так что проверка финальных заявок и других этапов воронки была бы бессмысленной. Ниже пруф-скриншот, на котором видно, что ассоциативных конверсий с данных источников – много меньше, чем по последнему клику. Намного больше тех, кто зашел – и сразу оставил заявку (сравните конверсии первого и последнего клика).
Также для платных источников, спускаясь ниже по иерархии, посмотрели ключевые слова. Они нас интересовали больше, чем объявления, Их оказалось аж 6 на яндекс и 5 на гугл. Что удивительно – отработало только одно, “power bi”. Остальные даже не то, чтобы плохо сконвертировались – у них даже показов было мало. Сегментация по типам устройств (настройка в самой рекламной системе) позволила предположить, что не стоило ограничивать Google только Full Browsers, так как в Яндексе клики (=интерес) был.
По бесплатным источникам (партнерки и соц.сети) было меньше интересностей, в первую очередь, потому что они условно бесплатные и рассматриваемых метрик по ним меньше. Там мы нашли небольшую ошибку в простановке utm-меток и посокрушались над немасштабируемостью этих каналов.
Последняя страница про рекламные каналы – это страница про динамику. На ней видно, как приходили заявки и как какой канал затухал и разгонялся. Здесь отметим, что некоторые из участников строили аналогичную динамику не только по первичным заявкам, но и более поздним этапам воронки. Мы в этом моменте не согласны, ибо дата в наших данных привязывается к моменту прихода клиента. И если по ней строить отчет по финальным заявкам, то получится, что клиенты отправляли эти финальные заявки еще ДО вебинара. В общем, т.к. даты соответствуют только первичным заявкам, по ним мы и строили. А по остальным – низя-низя.
Как закончилась регистрация, так и заявки закончились. И по финальным заявкам примерно такая же картинка будет.
Часть 2. Про гео и менеджеров
Анализ географии был must have, но крутых инсайтов не дал. То, что ставка была на МСК и СПБ, было достаточно очевидно 🙂 А остальные по чуть-чуть с разных городов и стран. Собственно, вот посещения по городам (это тепловая карта, розовое – это бледно-красное, а красное – Москва):
А вот дальше было интересно, потому что последний незадействованный срез – это срез по менеджерам. Мы не очень поняли, как менеджеры работали с заявками, но стало очевидно, что Алексей берет на себя слишком много! Взял себе половину всех заявок, а конверсия-то вниз поплыла… А Петр просто плохо работает 🙁
Часть 3. Про анкету
На этом закончились срезы, которые мы построили в самом начале и планировали посмотреть. Но остались незадействованными интересные данные: ответы участников на вопросы в форме финальной заявки. Было всего 10 вопросов, из них 2 первых – персональная информация, так что полезная информация была в ответах на оставшиеся восемь. Один вопрос был в открытой форме, и, как и ожидалось, на него ответили меньше всех. И дополнительно пришлось приводить ответы к стандартным вариантам, что добавило ручной-полуручной труд.
Очень хотелось понять, отличаются ли чем-то люди, которые начали решать задание от тех, кто бросил на полпути. К сожалению, сильных различий мы не обнаружили. Но очень старались, поэтому сформировали гипотезы на несильных 🙂
Финальным аккордом нашего дашборда стали Рыбы. Рыбы – это лучшая визуализация во всем Power BI. Мы настоятельно рекомендуем ее всем без исключения. Если вы не любите акул, можно поменять их на круглых или треугольных рыб. Но это просто Must Have!
Сам отчет
И наконец, итоговый отчет. Можно вживую все пофильтровать, посмотреть и сравнить свои выводы с нашими. Либо просто понаблюдать, как проплывают акулы.
В заключение хотелось бы поблагодарить организаторов и участников за интересный хакатон. Для нас это было две драйвовых недели 🙂 Приглашайте нас на следующие хакатоны! Учтем все замечания, поборемся за первое место!