Лабораторная работаАналитикаГод: 2024ВИВТ: Воронежский институт высоких технологий
👁 17💼 0

Готовая лабораторная работа: EDA и RFM продаж автомобилей

Загружена: 23.02.2026 16:12

Разбор набора Auto Sales Data (Kaggle): EDA, корреляции, визуализации и подготовка RFM-сегментации. Описаны характеристики столбцов, статистика по продажам и товарам, выявлены ключевые клиенты и географические тренды для практических рекомендаций.

Содержание

**Лабораторная работа**

**Задание 1.**

Возьмем датафрейм данных о продаже автомобилей с сайта Kaggle. Он содержит информацию о продажах автомобилей и может быть использован для анализа с помощью методов разведочного анализа данных (EDA) и анализа RFM. Этот датафрейм включает данные о марке и модели автомобиля, его цене, дате продажи, типе топлива и других характеристиках, что позволяет проводить глубокий анализ рыночных тенденций и клиентского поведения.

1. Дайте характеристику типов данных в датафрейме:
   - Сущностная характеристика (числовые, категориальные, дата и время).
   - Целевая характеристика (определите возможные целевые переменные в зависимости от целей анализа).
   - Степень структурированности данных.
   - Зависимость от субъекта, производящего данные.
   - Количество переменных (числовые, категориальные, дата и время).

2. Составьте паспорт набора данных:
   - Название набора данных.
   - Источник.
   - Описание.
   - Формат.

---

**Задание 2. Исследование полученных данных по методологии CRISP-DM**

1. Определите бизнес-цели, которые нужно достичь с помощью анализа данных (например, оптимизация продаж, прогнозирование доходов, сегментация клиентов, анализ предпочтений).

2. Сформулируйте конкретные задачи анализа данных для достижения поставленных бизнес-целей (анализ характеристик автомобилей, анализ сезонности, прогнозирование цен, кластеризация клиентов и т.д.).

3. Выполните следующие этапы анализа данных:
   - Загрузите датафрейм и необходимые библиотеки.
   - Проведите предварительную обработку данных (удаление ненужных столбцов, создание новых признаков, проверка на пропуски и дубликаты).
   - Проведите одномерный анализ данных (рассмотрите характеристики всех числовых и категориальных столбцов, постройте гистограммы распределения).
   - Проведите двумерный анализ данных (постройте матрицу корреляции и проанализируйте взаимосвязи между парами переменных).
   - Проведите многомерный анализ данных (постройте графики, сравнивающие несколько признаков, например, продажи по категориям продуктов и размеру сделки, количество заказанных товаров по категориям продуктов, взаимосвязь цены и линейки продуктов и т.д.).

4. Сделайте выводы по результатам анализа:
   - Общий обзор продаж (географическое распределение, продуктовые категории, тренды).
   - Выявление ключевых клиентов.
   - Оценка удержания клиентов.
   - Определение проблем (например, отсутствие новых клиентов).

5. На основе полученных данных предложите рекомендации для увеличения продаж, включая:
   - Увеличение присутствия на рынках с высоким потенциалом.
   - Улучшение стратегии для регионов со снижением продаж.
   - Фокус на успешных продуктах.
   - Привлечение новых клиентов.
   - Оптимизация сделок.
   - Работа с ключевыми клиентами.
   - Удержание клиентов.

Подробное описание

📘 О чем эта работа

Выполнена лабораторная работа по разведочному анализу продаж автомобилей на основе набора 'Auto Sales Data' с Kaggle. Объект — транзакции продаж автозапчастей и автомобилей; предмет — количественные и категориальные характеристики заказов, временные метрики и поведение клиентов. Проведены EDA, матрица корреляций и подготовка к RFM-сегментации.

📚 Что внутри

Документ содержит подробное пошаговое рассмотрение исходного csv-файла (2747 записей, 20 столбцов), описание типов переменных и предобработку:

  • Перечислены и охарактеризованы столбцы: SALES, QUANTITYORDERED, PRICEEACH, MSRP, PRODUCTLINE, DEALSIZE, STATUS, ORDERDATE, STATUSDATE и т.д.
  • Удалены PII-колонки: ORDERNUMBER, PHONE, ADDRESSLINE1, CONTACTLASTNAME, CONTACTFIRSTNAME, а также обновлено поле с разницей в днях (пересчитано относительно 02-06-2020).
  • Статистические сводки: средняя сумма продажи ≈ 3,553, диапазон продаж от 482.13 до 14,082.80; среднее QUANTITYORDERED ≈ 35 (от 6 до 97); средняя PRICEEACH ≈ 101 (26.88–252.87); средний MSRP ≈ 100.69 (33–214).
  • Категориальные итоги: статус 'Отгружен' — 2541 запись; 'Classic Cars' — 949 позиций в PRODUCTLINE; главный клиент — Euro Shopping Channel (259 транзакций).
  • Визуализации, построенные в Jupyter (seaborn/matplotlib): гистограммы, матрица корреляций, многомерные диаграммы сравнения SALES по PRODUCTLINE и DEALSIZE, распределение QUANTITYORDERED по продуктовым линиям, связи PRICEEACH vs MSRP.
  • Выводы по географии и времени: лидеры по странам — США, Испания, Франция; по городам — Мадрид, Сан-Диего, Нью-Йорк; выявлена месячная сезонность с пиками в октябре–ноябре.

📊 Для кого подходит

Подходит студентам и младшим аналитикам для практики в курсах по аналитике продаж, машинному обучению и бизнес-аналитике; полезно для курсовых и лабораторных работ по обработке транзакционных таблиц и RFM-сегментации клиентов.

✨ Особенности

В работе представлены реальные числовые показатели (средние, min/max), обработка временных метрик, проверка на дубликаты и пропуски (все 2747 записей заполнены), практические визуализации и конкретный набор рекомендаций. Есть готовая база для кластеризации клиентов (RFM), прогнозирования продаж и построения отчетов по ключевым клиентам (Euro Shopping Channel, Mini Gifts Distribution Ltd.).

❓ Частые вопросы

Подойдет ли для моего ВУЗа?
Структура лабораторной соответствует требованиям по оформлению: предобработка, описательная статистика, визуализации, выводы и практические рекомендации.

Можно адаптировать?
Да. Код и выводы легко модифицируются: смена опорной даты для расчётов, выбор других целевых переменных (SALES/QUANTITYORDERED), расширение RFM-подхода и добавление прогностической модели.

Ключевые практические выводы и рекомендации

  • Фокус на категориях: 'Classic Cars' генерируют ~40% дохода — расширить ассортимент и маркетинг по этой линейке.
  • Географическая стратегия: увеличить маркетинг в США, усилить активность в Испании и Франции; исследовать причины снижения в Австралии и Сингапуре.
  • Развитие клиентской базы: с сентября 2019 не появлялись новые клиенты — рекомендовано внедрить реферальные программы и кампании для привлечения.
  • Оптимизация корзины: средний размер заказа 20–50 предметов; стимулировать крупные заказы пакетами и скидками для увеличения среднего чека.
  • Работа с ключевыми клиентами: предложить программы лояльности Euro Shopping Channel и Mini Gifts Distribution Ltd. для закрепления оборота.

Документ предоставляет полный практический набор: от описания структуры датасета и предобработки до визуализаций и конкретных бизнес-рекомендаций, готовых к использованию в дальнейшем моделировании и сегментации клиентов.