Для звонков по России
Личный кабинет
Кластеризация iris, дерево решений CART для Titanic и k-NN для glass. Показаны этапы предобработки, визуализация результатов и оценка качества моделей. Подходит для освоения методов машинного обучения в R.
Практическая работа посвящена применению методов машинного обучения и интеллектуального анализа данных в среде R. На примере наборов iris, Titanic и glass последовательно рассматриваются кластеризация, построение дерева решений CART и многоклассовая классификация методом k-ближайших соседей.
В центре внимания — не только получение результата, но и полный цикл обработки: загрузка наборов, проверка структуры, преобразование переменных, деление на обучающую и тестовую выборки, построение моделей и интерпретация качества классификации.
В работе приведены конкретные вычислительные шаги и готовые фрагменты кода на R:
Отдельно показано, какие переменные участвовали в моделях: для Titanic использованы pclass, sex, age, fare, sibsp, parch, а для glass — все числовые признаки после масштабирования.
Для набора iris применены матрица расстояний, метод ближайшего соседа и алгоритм k-средних. По результатам видно, что вид setosa отделяется наиболее четко, а versicolor и virginica частично пересекаются.
В части по Titanic модель строится на пакете rpart, визуализируется через rpart.plot и fancyRpartPlot, а качество проверяется на тестовой выборке. Работа показывает, какие признаки сильнее влияют на вероятность выживания пассажира.
Для классификации типа стекла выполнены масштабирование признаков и обучение k-NN с параметром k = 5. Это позволяет увидеть, как расстояния между объектами влияют на итоговый класс и насколько хорошо алгоритм справляется с многоклассовой задачей.
Материал будет полезен студентам направлений информатика, программирование, прикладная математика, анализ данных, искусственный интеллект. Особенно полезна работа тем, кто изучает R, основы машинного обучения и практику построения классификаторов на реальных наборах данных.
Сильная сторона этой работы — сочетание теории и практики. В одном файле собраны сразу несколько типовых задач: кластеризация без учителя, бинарная классификация, многоклассовая классификация, оценка моделей через Accuracy, матрицу ошибок и ROC-кривую. Это удобно как для сдачи, так и для быстрого освоения темы.
Дополнительный плюс — готовая структура с понятными выводами по каждому заданию, что упрощает оформление отчета и помогает использовать текст как основу для защиты или доработки под требования преподавателя.
Подойдет ли для моего ВУЗа?
Да, структура универсальна: есть постановка задачи, код, визуализация и выводы по каждому разделу.
Можно адаптировать?
Да, работу легко доработать под другой набор данных, изменить параметры моделей или добавить собственные графики и расчеты.