📘 О чем эта работа
Выполнена лабораторная работа по разведочному анализу продаж автомобилей на основе набора 'Auto Sales Data' с Kaggle. Объект — транзакции продаж автозапчастей и автомобилей; предмет — количественные и категориальные характеристики заказов, временные метрики и поведение клиентов. Проведены EDA, матрица корреляций и подготовка к RFM-сегментации.
📚 Что внутри
Документ содержит подробное пошаговое рассмотрение исходного csv-файла (2747 записей, 20 столбцов), описание типов переменных и предобработку:
- Перечислены и охарактеризованы столбцы: SALES, QUANTITYORDERED, PRICEEACH, MSRP, PRODUCTLINE, DEALSIZE, STATUS, ORDERDATE, STATUSDATE и т.д.
- Удалены PII-колонки: ORDERNUMBER, PHONE, ADDRESSLINE1, CONTACTLASTNAME, CONTACTFIRSTNAME, а также обновлено поле с разницей в днях (пересчитано относительно 02-06-2020).
- Статистические сводки: средняя сумма продажи ≈ 3,553, диапазон продаж от 482.13 до 14,082.80; среднее QUANTITYORDERED ≈ 35 (от 6 до 97); средняя PRICEEACH ≈ 101 (26.88–252.87); средний MSRP ≈ 100.69 (33–214).
- Категориальные итоги: статус 'Отгружен' — 2541 запись; 'Classic Cars' — 949 позиций в PRODUCTLINE; главный клиент — Euro Shopping Channel (259 транзакций).
- Визуализации, построенные в Jupyter (seaborn/matplotlib): гистограммы, матрица корреляций, многомерные диаграммы сравнения SALES по PRODUCTLINE и DEALSIZE, распределение QUANTITYORDERED по продуктовым линиям, связи PRICEEACH vs MSRP.
- Выводы по географии и времени: лидеры по странам — США, Испания, Франция; по городам — Мадрид, Сан-Диего, Нью-Йорк; выявлена месячная сезонность с пиками в октябре–ноябре.
📊 Для кого подходит
Подходит студентам и младшим аналитикам для практики в курсах по аналитике продаж, машинному обучению и бизнес-аналитике; полезно для курсовых и лабораторных работ по обработке транзакционных таблиц и RFM-сегментации клиентов.
✨ Особенности
В работе представлены реальные числовые показатели (средние, min/max), обработка временных метрик, проверка на дубликаты и пропуски (все 2747 записей заполнены), практические визуализации и конкретный набор рекомендаций. Есть готовая база для кластеризации клиентов (RFM), прогнозирования продаж и построения отчетов по ключевым клиентам (Euro Shopping Channel, Mini Gifts Distribution Ltd.).
❓ Частые вопросы
Подойдет ли для моего ВУЗа?
Структура лабораторной соответствует требованиям по оформлению: предобработка, описательная статистика, визуализации, выводы и практические рекомендации.
Можно адаптировать?
Да. Код и выводы легко модифицируются: смена опорной даты для расчётов, выбор других целевых переменных (SALES/QUANTITYORDERED), расширение RFM-подхода и добавление прогностической модели.
Ключевые практические выводы и рекомендации
- Фокус на категориях: 'Classic Cars' генерируют ~40% дохода — расширить ассортимент и маркетинг по этой линейке.
- Географическая стратегия: увеличить маркетинг в США, усилить активность в Испании и Франции; исследовать причины снижения в Австралии и Сингапуре.
- Развитие клиентской базы: с сентября 2019 не появлялись новые клиенты — рекомендовано внедрить реферальные программы и кампании для привлечения.
- Оптимизация корзины: средний размер заказа 20–50 предметов; стимулировать крупные заказы пакетами и скидками для увеличения среднего чека.
- Работа с ключевыми клиентами: предложить программы лояльности Euro Shopping Channel и Mini Gifts Distribution Ltd. для закрепления оборота.
Документ предоставляет полный практический набор: от описания структуры датасета и предобработки до визуализаций и конкретных бизнес-рекомендаций, готовых к использованию в дальнейшем моделировании и сегментации клиентов.