Аналитика, Кластеризация | Олег Брагинский, Марина Строева
Основатель «Школы траблшутеров» Олег Брагинский и ученица Марина Строева проведут разведочный анализ данных по ключевым категориям услуг Авито от автосервиса до красоты, чтобы понять, где формируется ценность для бизнеса и какие сферы пользуются спросом.
Для понимания спроса на услуги и перспектив для бизнеса, исследуем данные Авито по ключевым категориям: автосервис, бытовые услуги, вывоз мусора и вторсырья, грузоперевозки, складские услуги, дезинфекция, дезинсекция, здоровье, искусство, красота, монтаж и установка техники.
Ключевые метрики на площадке: число продавцов, количество объявлений, просмотров и контактов, а также уровень спроса. Планируем выявить структурные закономерности, сегментировать рынок и сформулировать рекомендации по развитию каждого сегмента.
Применяем метод разведочного анализа данных (EDA), разрабатываем дополнительные метрики конверсии, выполняем кластеризацию кластеров по характеристикам (K-Means и иерархическую) с последующей интерпретацией результатов, построением графиков и таблиц.
Распределение основных показателей услуг при первичной обработке следующее: количество продавцов и число просмотров имеют длинные «хвосты». В большинстве категорий значения небольшие, но есть и аномально большие: предметы школы и ВУЗа, маникюр и педикюр.
То же видно по «контактам на продавца» и «просмотрам на объявление»: большинство находится в низком диапазоне, при этом встречаются отдельные пики с крайне высокими значениями: аренда авто, двери, фото, аудио, видеотехника, вскрытие и ремонт замков, потолки, разнорабочие.
Уровень спроса распределён ближе к низким значениям. Плотность максимальна в районе 0,03–0,12. В среднем конверсия средняя, но отдельные продавцы или объявления демонстрируют лучшую картину: услуги эвакуатора, мастер на час. Просмотров на объявление чаще всего 30–100.
По топ-10 показателям образовались лидеры по:
- продавцам – предметы школы и ВУЗа блистают среди 22’728 участников
- просмотрам – аренда авто выделяется на фоне 4’196’167 прочтений
- уровню спроса – вскрытие и ремонт замков заметны на 33%.
Готовим данные для кластеризации, выбираем признаки, используем логарифмическое преобразование для сильно скошенных данных, стандартизируем исходную информацию для K-Means. Признаки для кластеризации: продавцы – просмотры, контакты – уровень спроса.
С помощью метода локтя определяем оптимального числа кластеров. Вычисляем инерцию (сумма квадратов расстояний) для разного числа блоков, строим график локтя. Точка слома приходится на четырёх, выбираем оптимальное число кластеров для дальнейшей сегментации – 4.
Задействовав метод K-Means, находим четыре кластера. Чем больше масштабы продавцов и трафика, тем больше контактов. Спрос слабо коррелирует с количеством контактов: точки разнесены широким «веером», без выраженной линейной зависимости.
Кластер A (тёмно-фиолетовый, низкие лог-значения): небольшие продавцы с малым трафиком и скромным числом контактов. Уровень спроса варьируется, но чаще невысок.
Кластер B (жёлтый, средний трафик, умеренные контакты): средние просмотры, контакты и продавцы. Умеренно-низкий спрос при нормальных контактах.
Кластер C (зелёный, эффективные средние): похожие масштабы на B, но локально выше контакты при сопоставимых просмотрах. Возможный очаг повышенной конверсии.
Кластер D (синий, топы): высокие продавцы, просмотры, контакты. Спрос необязательно самый интенсивный, но генерирует наибольшее число контактов.
Построение дендограмма иерархической кластеризации (метод Уорда) помогает определить степень различия при соединении кластеров. По мере подъёма образуются более крупные блоки. Выше слияние – сильнее различия между объединяемыми группами:
Интерпретация кластеров (k-means). Кластер 0: нишевые услуги, малое количество продавцов, низкие просмотры, высокая конверсия. Специализированные услуги с целевой аудиторией.
Средние показатели:
- уровень спроса: 13,3%
- просмотры: 18’424
- контакты: 2’142
- продавцы: 295.
Лидеры группы: стоматология, чистка ковров, швейные машины, оверлоки, водоёмы и фонтаны, газификация, подология, высотные и гипсокартонные работы, оборудование для майнинга, столярные и плотницкие работы, работы, изоляция и утепление, ремонт часов.
Кластер 1: массовые лидеры. Очень много продавцов, огромные просмотры, низкая конверсия. Высококонкурентные популярные услуги.
Средние показатели:
- уровень спроса: 5,8%
- просмотры: 951’946
- продавцы: 8’475
- контакты: 55’636.
Ключевые ниши: предметы школы и ВУЗа, маникюр, педикюр, автосервисы для автомобилей, иностранные языки, услуги художников, ИТ, дизайн, тексты, фотосъёмка, психология, консультирование, производство, обработка, маркетинг и продвижение.
Кластер 2: высокий спрос. Средние метрики, но очень высокий уровень спроса и конверсия. Востребованные услуги с хорошей монетизацией.
Средние показатели:
- уровень спроса: 21,3%
- просмотры: 84’385
- продавцы: 1’227
- контакты: 16’931.
Главные представители: вскрытие и ремонт замков, принтеры, холодильники, морозильные камеры, варочные панели, духовые шкафы, стиральные, сушильные машины, вывоз мусора, двери, потолки, изготовление ключей и заточка, сборка и ремонт мебели.
Кластер 3: средний сегмент. Средние показатели по всем метрикам, низкая конверсия. Стандартные услуги со средней популярностью.
Средние показатели:
- уровень спроса: 6,3%
- просмотры: 176’926
- продавцы: 1’673
- контакты: 9’678.
Сюда вошли: международные перевозки, бухгалтерия и финансовые услуги, профессиональная подготовка, музыка, театр, видеосъёмка, ремонт квартир и домов под ключ, оформление и декор, стихи и песни на заказ, детское развитие, логопеды, фитнес.
Ключевые наблюдения
Распределение продавцов и просмотров существенно скошено, есть несколько категорий-локомотивов и длинный хвост ниш. Конверсия контактов в просмотры варьируется сильнее, чем абсолютные просмотры. Высокий трафик не гарантирует высокую вовлечённость.
Интенсивность предложения (объявлений на продавца) зачастую отрицательно коррелирует с конверсией: вероятно, при избытке объявлений внимание рассеивается. Ряд категорий с умеренным трафиком демонстрирует заметно лучшую продуктивность лида.
Практический вектор – развивать стратегии по сегментам: нишам – доверие и экспертиза; лидерам – дифференциация и автоматизация; растущим – SEO, ASO и тесты цен; аутсайдерам – сезонные кампании и точное позиционирование.
Закрывать разрывы за счёт улучшения карточек, разнообразного медиаконтента и человеко-ориентированной коммуникации.