РефератАнализ данныхГод: 2025Синергия: Московский финансово-промышленный университет «Синергия»
👁 8💼 0

Готовая практическая: методы машинного обучения в R

Загружена: 14.04.2026 15:33

Кластеризация iris, дерево решений CART для Titanic и k-NN для glass. Показаны этапы предобработки, визуализация результатов и оценка качества моделей. Подходит для освоения методов машинного обучения в R.

Подробное описание

📘 О чем эта работа

Практическая работа посвящена применению методов машинного обучения и интеллектуального анализа данных в среде R. На примере наборов iris, Titanic и glass последовательно рассматриваются кластеризация, построение дерева решений CART и многоклассовая классификация методом k-ближайших соседей.

В центре внимания — не только получение результата, но и полный цикл обработки: загрузка наборов, проверка структуры, преобразование переменных, деление на обучающую и тестовую выборки, построение моделей и интерпретация качества классификации.

📚 Что внутри

В работе приведены конкретные вычислительные шаги и готовые фрагменты кода на R:

  • кластерный анализ набора iris иерархическим методом и методом k-means с построением дендрограммы и графика clusplot;
  • визуальная проверка различий между видами iris через боксплоты по признакам длины и ширины чашелистика и лепестка;
  • построение модели CART для прогноза выживания пассажиров Titanic с обработкой пропусков в возрасте медианой и разбиением выборки 70/30;
  • оценка дерева решений через матрицу ошибок, расчет Accuracy и построение ROC-кривой;
  • многоклассовая классификация набора glass методом k-NN при k = 5 после стандартизации признаков;
  • сравнение истинных и предсказанных классов в таблице сопряженности и вывод доли верных ответов;
  • визуализация результатов классификации по двум признакам в двумерном пространстве.

Отдельно показано, какие переменные участвовали в моделях: для Titanic использованы pclass, sex, age, fare, sibsp, parch, а для glass — все числовые признаки после масштабирования.

Задание 1: кластеризация iris

Для набора iris применены матрица расстояний, метод ближайшего соседа и алгоритм k-средних. По результатам видно, что вид setosa отделяется наиболее четко, а versicolor и virginica частично пересекаются.

Задание 2: дерево решений для Titanic

В части по Titanic модель строится на пакете rpart, визуализируется через rpart.plot и fancyRpartPlot, а качество проверяется на тестовой выборке. Работа показывает, какие признаки сильнее влияют на вероятность выживания пассажира.

Задание 3: k-NN для glass

Для классификации типа стекла выполнены масштабирование признаков и обучение k-NN с параметром k = 5. Это позволяет увидеть, как расстояния между объектами влияют на итоговый класс и насколько хорошо алгоритм справляется с многоклассовой задачей.

📊 Для кого подходит

Материал будет полезен студентам направлений информатика, программирование, прикладная математика, анализ данных, искусственный интеллект. Особенно полезна работа тем, кто изучает R, основы машинного обучения и практику построения классификаторов на реальных наборах данных.

✨ Особенности

Сильная сторона этой работы — сочетание теории и практики. В одном файле собраны сразу несколько типовых задач: кластеризация без учителя, бинарная классификация, многоклассовая классификация, оценка моделей через Accuracy, матрицу ошибок и ROC-кривую. Это удобно как для сдачи, так и для быстрого освоения темы.

Дополнительный плюс — готовая структура с понятными выводами по каждому заданию, что упрощает оформление отчета и помогает использовать текст как основу для защиты или доработки под требования преподавателя.

❓ Частые вопросы

Подойдет ли для моего ВУЗа?
Да, структура универсальна: есть постановка задачи, код, визуализация и выводы по каждому разделу.

Можно адаптировать?
Да, работу легко доработать под другой набор данных, изменить параметры моделей или добавить собственные графики и расчеты.