Аналитика, Искусственный интеллект | Олег Брагинский, Марина Строева
Основатель «Школы траблшутеров» Олег Брагинский и ученица Марина Строева расскажут, как анализировать данные с помощью искусственного интеллекта, какие инструменты и библиотеки доступны машине, что за промты помогут найти закономерности и корреляцию. Объяснят, какие объёмы данных может обработать модель, и почему профессия аналитика надолго, а то и навсегда останется востребованной даже в эпоху повсеместного внедрения ИИ.

Для испытания возможностей ИИ по анализу данных выбрали ChatGPT o3 High. Загружаем в модель два Excel файла объёмом по 11 Кб, с данными о продажах топ-30 категорий на Озон за год и за квартал: «заказано на сумму», «динамика оборота», «средняя цена», «число продавцов».
Пишем простой промт, не требующий никаких дополнительных навыков инженера по промптам или аналитика данных: достаточно простого понимания результата, который необходимо получить, с расчётом на то, что по итогам задачу можно расширить и уточнить.
Обработка небольшого объёма данных занимает 1–3 минуты, машина вызывает Python для чтения Excel-файлов, фильтрации, переименования столбцов и преобразования типов.
Первый этап – загрузка и первичный осмотр
Сначала модель загружает оба файла Excel, содержащих аналитику продаж за год и за квартал в Python для понимания структуры данных, определения наличия заголовков, подбора формата и угадывания первых строк. Используем библиотеку pandas для работы с таблицами:
Второй этап – очистка и структурирование
ИИ нашёл строки с заголовками, начиная с «Категория». Пропустил строки с описаниями и пояснениями. Преобразовал числовые столбцы к цифровому типу. Удалил пустые строки, чтобы получить чистую таблицу, пригодную для анализа, без текстовых описаний и NaN:
Третий этап – подсчёт итогов и долей
С помощью всё той же библиотеки pandas, модель посчитала суммарные продажи и количество заказанных штук по категориям. Для каждой вычислила долю в общем обороте, что позволяет понять, какие категории формируют основную выручку.
Первые три этапа особенно важны для неструктурированных данных, и создания пригодной для анализа базы. Для наших данных подобные шаги мало полезны, так как Excel-файлы изначально содержали логичную структуру, и было очевидно какие позиции лидируют в продажах.
Следующий этап анализа – классификация трендов
Нужен, чтобы быстро выделить растущие и падающие категории. На основе столбца «Динамика оборота» ИИ определил тренд для каждой категории: рост, падение или стагнация. Для годовых данных: если динамика больше 1 – рост, меньше 0,95 – падение, иначе – стагнация. Для квартальных: если динамика больше 0 – рост, меньше 0 – падение, иначе – стагнация.
Особенно интересным стал корреляционный анализ
Чтобы понять, какие показатели связаны между собой: влияет ли средняя цена на выкуп. GPT построил корреляционную матрицу между основными метриками: сумма заказов, динамика, доля выкупа, средняя цена. Задействовали библиотеки: pandas, numpy, seaborn и matplotlib.
Положительные корреляции, увеличивающие возвраты
Годовые данные:
- число брендов (0,35) – чем больше брендов в категории, тем выше процент возвратов
- динамика оборота (0,31) – быстрорастущие категории имеют больше возвратов
- число продавцов (0,30) – больше продавцов провоцирует больше возвратов.
Квартальные данные:
- динамика оборота (0,36)
- число продавцов (0,22)
- число брендов (0,28).
Отрицательные корреляции, уменьшающие возвраты
Годовые данные:
- доля топ–5 продавцов (-0,43) – чем выше концентрация продаж у крупных продавцов, тем меньше возвратов
- средняя цена (-0,35) – дорогие товары возвращают реже.
Квартальные данные:
- доля топ–5 продавцов (-0,38)
- средняя цена (-0,28).
Прогнозирование
Поможет оценить, какие категории будут расти и где есть потенциал. Для годовых данных ИИ предсказывал оборот на следующий год, умножая текущий оборот на динамику. Для квартальных прогнозировал следующий квартал, прибавляя процент динамики к текущему обороту.
Прогноз вышел весьма примитивным, но с учётом минимального объёма данных, которые использовала модель, решение можно назвать условно-оптимальным. Для улучшения прогноза лучше использовать показатели за последние 18 месяцев с помесячной динамикой продаж и роста.
Анализ эффективности
Поможет найти категории, где не только растёт оборот, но высок процент выкупа и низки возвраты. GPT рассчитал «эффективность» как произведение доли выкупа на динамику роста или на 1+динамика для квартала. Выделил топ-5 наиболее эффективных категорий:
Представление результатов
Визуализация помогает быстро увидеть взаимосвязи между показателями. ИИ построил тепловую карту корреляций между основными метриками. Использовал библиотеки matplotlib – для построения графиков и seaborn – для красивых тепловых карт.
Формирование рекомендаций
Чтобы дать не просто цифры, а управленческие выводы. На основе предыдущих шагов модель выделила категории-лидеры, точки роста, проблемные зоны, дала рекомендации по развитию:
- Концентрация продавцов: высокая доля топ-5 продавцов снижает возвраты.
Рекомендация: развивать программы поддержки крупных надёжных продавцов
- Ценовая политика: самые дорогие и самые дешёвые товары возвращают реже, наибольшие проблемы в среднем ценовом сегменте.
Рекомендация: уделять особое внимание качеству товаров среднего сегмента.
- Управление ассортиментом: большое количество брендов увеличивает возвраты.
Рекомендация: тщательнее отбирать бренды, с фокусом на проверенных поставщиках.
- Быстрорастущие категории: требуют больше внимания – показывают больше возвратов.
Рекомендация: усилить контроль качества в растущих категориях.
- Практические меры: улучшить качество фотографий и описаний товаров, внедрить более точные размерные сетки, развивать систему отзывов и рейтингов, анализировать причины возвратов по продавцам, внедрить премирование за низкий процент возвратов.
Для проведения более глубокого анализа потребуются дополнительная информация, которую можно получить из личного кабинета продавца Ozon, систем аналитики, Яндекс Вордстат и внешних источников: сайтов конкурентов, статистические данные государственных органов.
Аналитика – незаменимый инструмент в бизнесе. Данные – не просто цифры, а стратегический актив. Компании, способные быстро и глубоко анализировать продажи, получают конкурентное преимущество, лучше понимают клиентов, эффективнее управляют бизнесом.
Традиционные методы анализа по-прежнему полезнее ИИ-моделей, но в отсутствие аналитика в штате, использование умного помощника может стать достаточно эффективным, а при правильном подходе позволит снизить расходы и нарастить прибыль.