Помощь студентам в учебе и написании работ. Заказать дипломную, курсовую, работу. Никольский Помощь

Содержание

Оглавление
Введение	2
Системный анализ объекта и предмета исследования	4
Описание методов, применяемых в исследовании	6
Сбор и предобработка данных	7
Методы машинного обучения	7
Визуализация данных на Python.	10
Проектная часть	13
Заключение	25
Литература	27

Введение

Анализ цен на недвижимость в крупных мегаполисах, таких как Москва, является важной задачей для многих заинтересованных сторон: от потенциальных покупателей до застройщиков и инвесторов. Колебания стоимости жилья напрямую связаны с экономическими факторами, уровнем жизни населения и развитием городской инфраструктуры. Прогнозирование цен на квартиры с использованием современных методов анализа данных и машинного обучения может значительно повысить эффективность планирования сделок, улучшить понимание рынка и помочь принять более взвешенные решения.
Цены на недвижимость в крупных мегаполисах, таких как Москва, постоянно колеблются под влиянием множества факторов, включая экономическую ситуацию, спрос и предложение, развитие городской инфраструктуры, а также индивидуальные характеристики объектов недвижимости. Эффективный анализ и прогнозирование цен на квартиры является важной задачей для различных участников рынка, будь то частные покупатели, застройщики, агенты недвижимости или инвесторы.
Одной из ключевых проблем на рынке недвижимости является сложность предсказания будущих цен на квартиры, учитывая множество взаимосвязанных факторов. Проблема усложняется также изменчивостью экономической ситуации и влиянием внешних условий, таких как инфляция, государственные программы поддержки, и изменения в законодательстве, которые могут существенно влиять на спрос и предложение жилья. Без достаточной информации и инструментов для анализа многие участники рынка сталкиваются с неопределенностью при принятии решений.
Актуальность анализа цен на московские квартиры обусловлена высоким уровнем спроса на недвижимость и динамичным изменением рыночной стоимости. В условиях быстро изменяющейся экономической среды, использование данных и предсказательных моделей становится ключевым инструментом для участников рынка недвижимости. Прогнозирование цен может помочь оптимизировать стратегии покупки, продажи и аренды квартир, что делает данное исследование актуальным как для физических лиц, так и для бизнеса.
Целью курсового проекта является анализ цен на квартиры в Москве с использованием данных, представленных на платформе Kaggle, и применение методов машинного обучения для прогнозирования стоимости недвижимости в зависимости от её характеристик.
Задача исследования заключается в разработке предсказательной модели, которая сможет точно прогнозировать стоимость квартир в Москве на основе данных о характеристиках жилья, таких как расположение, площадь, количество комнат, этажность, и другие факторы. Для этого необходимо собрать и проанализировать актуальные данные о ценах на квартиры в Москве, определить наиболее значимые факторы, влияющие на ценообразование, и на основе этих данных построить модель машинного обучения, способную предсказывать стоимость жилья. В ходе исследования также требуется провести анализ точности предсказаний и оценить влияние различных факторов на окончательную стоимость квартиры.
Таким образом, целью исследования является создание инструмента, который позволит предсказывать цены на квартиры с высокой степенью точности, что будет полезно как для потенциальных покупателей и инвесторов, так и для застройщиков и риелторов, стремящихся лучше понять текущие рыночные тенденции и их будущие изменения. Этот проект позволит не только получить представление о текущем состоянии рынка недвижимости в Москве, но и продемонстрировать применение машинного обучения для анализа и прогнозирования цен.
Системный анализ объекта и предмета исследования
Объектом данного исследования является рынок недвижимости в Москве, представляющий собой сложную и динамичную систему, на которую влияют множество факторов как макроэкономического, так и локального характера. Рынок недвижимости в мегаполисах, таких как Москва, характеризуется высокой степенью неопределенности, значительными колебаниями цен и множеством участников, каждый из которых оказывает влияние на ценообразование. Основные участники рынка включают частных покупателей, продавцов, застройщиков, инвесторов, агентства недвижимости, а также регулирующие органы, принимающие законодательные решения, влияющие на спрос и предложение жилья.
Москва, как столица России и крупнейший мегаполис страны, имеет уникальные особенности рынка недвижимости. Важными факторами, влияющими на ценообразование в этом регионе, являются развитие инфраструктуры, социально-экономическая политика, уровень доходов населения, демографические изменения, а также географическое расположение объектов недвижимости (центральные районы, спальные районы, близость к транспортным узлам). Существенное влияние на рынок оказывает и международная экономическая ситуация, изменяющая покупательскую способность населения и динамику спроса на жилье.
Предметом исследования является ценообразование на рынке квартир в Москве и определение факторов, влияющих на изменение стоимости жилья. Ключевым аспектом предмета исследования выступает анализ данных о ценах на квартиры и их характеристиках, таких как площадь, количество комнат, этажность, удаленность от центра, а также факторов, определяющих их ценность в глазах потенциальных покупателей.
Системный анализ включает в себя изучение связей между элементами, которые влияют на ценообразование на рынке недвижимости. В первую очередь, это взаимосвязь между характеристиками объекта недвижимости и его рыночной стоимостью. Например, расположение квартиры (в центре или на периферии) оказывает значительное влияние на её цену. Важны такие характеристики, как тип здания, этажность, наличие инфраструктуры в районе (школы, магазины, транспортные узлы), а также состояние объекта (новостройка, вторичный рынок). Эти факторы должны быть интегрированы в единую модель, которая позволит адекватно прогнозировать стоимость объектов недвижимости.
Системный анализ предметной области также включает учет внешних факторов, таких как экономическая ситуация в стране, инфляционные процессы, колебания валютных курсов, что напрямую влияет на спрос на недвижимость как среди местных покупателей, так и среди иностранных инвесторов. Более того, социальные изменения, такие как миграция населения в крупные города, рост числа молодых семей и изменение предпочтений покупателей (например, увеличение спроса на экологичное жилье) оказывают влияние на рынок.
Цель системного анализа — выявить ключевые зависимости и взаимосвязи между различными факторами, которые определяют стоимость квартир в Москве, чтобы в дальнейшем создать модель, способную предсказать цену конкретного объекта недвижимости на основе его характеристик и актуальной рыночной ситуации. Это позволит улучшить процесс принятия решений для всех участников рынка и минимизировать риски, связанные с неопределенностью в ценообразовании.
Проблема, исследуемая в рамках данного проекта, заключается в высокой степени неопределенности на рынке недвижимости Москвы, вызванной множеством факторов, влияющих на стоимость квартир. Несмотря на наличие большого объема данных о сделках купли-продажи недвижимости, прогнозирование цен на квартиры в условиях постоянно меняющихся рыночных условий представляет собой сложную задачу. Ценообразование зависит от множества взаимосвязанных факторов: расположения, характеристик объекта недвижимости, рыночной конъюнктуры, экономической ситуации в стране и других внешних условий.
Одной из ключевых проблем является отсутствие простого и доступного инструмента, который позволил бы эффективно прогнозировать цены на квартиры на основе исторических данных и текущих характеристик недвижимости. На практике участники рынка, такие как частные покупатели, застройщики и агенты по недвижимости, часто опираются на субъективные оценки и интуицию при оценке стоимости квартир. Это приводит к ошибкам в принятии решений, завышению или занижению стоимости, увеличению рисков при инвестициях в недвижимость.
Традиционные методы оценки стоимости жилья зачастую недостаточны, так как не учитывают сложные взаимосвязи между множеством факторов, влияющих на рынок недвижимости. Проблема усложняется ещё и тем, что на рынке присутствуют как постоянные (географическое положение, характеристики жилья), так и переменные факторы (изменение экономической ситуации, колебания спроса и предложения), которые могут оказывать как краткосрочное, так и долгосрочное влияние на стоимость квартир.
В условиях динамичной экономической и рыночной среды возникает необходимость в создании инструмента, который бы на основе анализа данных и методов машинного обучения мог прогнозировать цены на квартиры с высокой точностью. Такой инструмент позволит участникам рынка принимать более обоснованные и информированные решения, минимизировать риски и повысить эффективность планирования сделок.
Таким образом, основная проблема заключается в необходимости разработки модели, способной учитывать множество факторов и взаимодействий между ними для точного прогнозирования цен на квартиры в Москве.
Описание методов, применяемых в исследовании
Для достижения целей данного исследования и разработки модели прогнозирования цен на квартиры в Москве применяются несколько современных методов анализа данных и машинного обучения. Эти методы позволяют выявить ключевые факторы, влияющие на стоимость недвижимости, и создать модель, способную делать точные прогнозы на основе характеристик объектов и текущих рыночных условий.
Сбор и предобработка данных
Первым этапом исследования является сбор данных о рынке недвижимости Москвы. Для этого используется публичный набор данных с платформы Kaggle, содержащий информацию о ценах на квартиры, а также их основных характеристиках (площадь, количество комнат, этажность, район и т.д.). Данные проходят тщательную предобработку, включающую следующие шаги:
Удаление пропущенных значений, аномалий и дубликатов для улучшения качества модели.
Преобразование текстовых данных (например, районов) в числовые значения с помощью методов кодирования (one-hot encoding или label encoding), чтобы они могли быть использованы в модели.
Нормализация и стандартизация числовых признаков для приведения всех данных к одному масштабу, что особенно важно для методов машинного обучения.
Методы машинного обучения
После анализа данных для прогнозирования цен на квартиры применяются методы машинного обучения, позволяющих строить модели предсказания на основе исторических данных.
Методы машинного обучения (ММО) — это совокупность алгоритмов и моделей, которые позволяют компьютерам обучаться на основе данных и делать предсказания или принимать решения без явного программирования для каждой конкретной задачи. Машинное обучение является частью более широкой области искусственного интеллекта (ИИ) и используется для автоматизации сложных процессов анализа данных. Основная идея машинного обучения заключается в том, чтобы создать модели, которые способны выявлять закономерности в данных и использовать их для прогнозирования новых, невиданных ранее данных.
Обучение с учителем (Supervised Learning) - это один из самых распространенных подходов в машинном обучении, где модель обучается на основе размеченных данных. Это означает, что у каждого примера данных есть соответствующий правильный ответ (метка), который используется для обучения модели. Цель состоит в том, чтобы научить модель находить закономерности между входными данными и метками, чтобы впоследствии предсказывать правильные метки для новых данных.
Примеры задач обучения с учителем включают:
Классификация — задача, при которой модель предсказывает категорию, к которой относится объект (например, спам или не спам в электронной почте).
Регрессия — задача предсказания числового значения (например, прогнозирование цен на недвижимость).
К методам обучения с учителем относятся:
Линейная регрессия: для предсказания непрерывных значений.
Логистическая регрессия: для бинарной классификации.
Деревья решений: алгоритм, который строит дерево решений для классификации или регрессии.
Методы ансамблей: такие как Random Forest и Gradient Boosting, которые комбинируют несколько моделей для повышения точности.
В обучении без учителя модель работает с неразмеченными данными, то есть она не знает правильных ответов и должна сама находить скрытые структуры и закономерности. Это полезно для задач, где метки не очевидны или их получение затруднено.
Задачи обучения без учителя включают:
Кластеризация — группировка объектов в кластеры на основе их схожести. Пример — группировка клиентов по их покупательским предпочтениям.
Снижение размерности — уменьшение количества признаков (переменных) для упрощения данных, сохраняя основную информацию. Пример — анализ данных с высокой размерностью (например, изображения).
Методы обучения без учителя включают:
K-means: алгоритм кластеризации, который распределяет данные на k групп.
Иерархическая кластеризация: метод, который строит иерархию кластеров.
Методы снижения размерности: такие как PCA (метод главных компонент), который сокращает количество признаков в данных.
Обучение с подкреплением (Reinforcement Learning)
Этот подход заключается в том, что агент обучается через взаимодействие с окружающей средой. Он выполняет действия и получает обратную связь в виде награды или наказания, в зависимости от того, насколько успешными были его действия. Цель агента — максимизировать суммарную награду за определенный период времени.
Обучение с подкреплением широко применяется в робототехнике, управлении, играх и других задачах, где требуется последовательность решений. Примером могут быть системы автоматизированного управления (например, автопилот), где агент учится управлять машиной, исходя из своих действий и полученных данных.
К методам обучения с подкреплением относятся:
Q-learning: алгоритм, в котором агент учится через последовательные действия, получая таблицу действий и состояний.
Политики градиентного спуска: метод, при котором агент учится выбирать действия, которые максимизируют ожидаемую награду.
Визуализация данных на Python — это процесс преобразования числовых данных в графические формы, такие как графики, диаграммы, тепловые карты и другие визуальные представления. Она является ключевым инструментом в анализе данных, позволяя исследователям и аналитикам выявлять скрытые закономерности, тренды и аномалии, которые могут быть неочевидны при работе с сырыми данными. Визуализация помогает сделать сложную информацию более доступной и понятной, что особенно важно при подготовке отчетов или презентаций. Python предлагает широкий спектр библиотек, каждая из которых имеет свои особенности и сильные стороны для создания различных видов графиков.
Matplotlib — это одна из самых популярных и универсальных библиотек для построения графиков в Python. Она была создана для того, чтобы предоставить пользователям возможность строить как простые графики, такие как линейные графики и гистограммы, так и более сложные визуализации с детальными настройками. Matplotlib позволяет полностью управлять внешним видом графиков: можно изменять цвет линий, размер шрифтов, стили осей и легенд. Эта библиотека часто используется для построения статических изображений графиков, которые могут быть включены в отчеты или статьи. Ее основное преимущество — высокая степень гибкости и возможность создания практически любого типа графиков.
Seaborn — это библиотека для визуализации данных, которая построена на базе Matplotlib, но предлагает более высокоуровневые интерфейсы для работы с данными. Seaborn идеально подходит для статистической визуализации, что делает её особенно популярной в научных и исследовательских кругах. Одним из главных преимуществ Seaborn является её способность автоматически обрабатывать сложные наборы данных и создавать эстетически привлекательные графики с минимальными усилиями. Она предоставляет такие типы визуализаций, как тепловые карты, диаграммы распределений, диаграммы плотности, а также специализированные графики, такие как violinplot и boxplot, которые позволяют глубже исследовать статистические свойства данных.
Plotly — это библиотека, предназначенная для создания интерактивных графиков. В отличие от Matplotlib и Seaborn, графики, созданные с помощью Plotly, можно интерактивно изменять: например, увеличивать или уменьшать масштаб, выделять отдельные данные и просматривать подробную информацию по точкам на графике. Это делает Plotly идеальным инструментом для работы с веб-приложениями или для визуализации данных в реальном времени. Кроме того, Plotly поддерживает создание 3D-графиков, графиков времени и карт, что расширяет возможности для пользователей, работающих с пространственными и временными данными. Интерактивные визуализации Plotly легко встраиваются в веб-страницы, что делает эту библиотеку популярной среди разработчиков веб-приложений.
Bokeh — ещё одна библиотека для интерактивной визуализации данных. Она была разработана специально для построения графиков, которые могут взаимодействовать с пользователем в реальном времени. Bokeh часто используется для создания интерактивных панелей мониторинга (dashboards), где можно фильтровать данные, изменять параметры графиков и обновлять визуализацию по мере изменения данных. Она позволяет создавать графики, которые можно встраивать в веб-страницы и приложения, и поддерживает работу с большими наборами данных. Основное преимущество Bokeh — это её гибкость при создании сложных визуализаций с элементами интерактивности, таких как диаграммы рассеяния, тепловые карты и графики временных рядов.
Pandas — хотя это в первую очередь библиотека для обработки и анализа данных, она также имеет встроенные возможности для создания простых визуализаций. С помощью Pandas можно быстро строить такие графики, как гистограммы, диаграммы рассеяния и временные ряды, используя встроенные данные в формате DataFrame. Это удобно, когда необходимо быстро визуализировать данные на основе небольших наборов данных без использования более сложных библиотек, таких как Matplotlib или Seaborn.
Различные библиотеки в Python поддерживают большое количество видов графиков, каждый из которых подходит для определённых типов данных:
- Линейные графики помогают показывать изменения показателей с течением времени или в зависимости от какой-либо другой переменной.
- Гистограммы позволяют визуализировать распределение данных по различным категориям или диапазонам.
- Диаграммы рассеяния используются для демонстрации взаимосвязей между двумя переменными.
- Круговые диаграммы визуализируют доли категорий от целого.
- Тепловые карты отображают интенсивность значений на двумерной плоскости, что полезно для выявления кластеров данных или трендов.
Визуализация данных на Python — это мощный инструмент, который упрощает понимание данных и принятие решений. Разные библиотеки предоставляют различные возможности, от статических графиков до сложных интерактивных визуализаций. Независимо от типа данных и целей анализа, библиотеки Python для визуализации могут предложить гибкие и эффективные решения для создания графиков, которые помогут эффективно анализировать и представлять данные.
Проектная часть
Набор данных представляет собой структурированную таблицу, содержащую информацию, необходимую для анализа и прогнозирования цен на недвижимость в Москве и Московской области. Данные были собраны в ноябре 2023 года, что делает их актуальными и подходящими для анализа. Набор содержит различные параметры, которые играют ключевую роль в оценке стоимости недвижимости, такие как местоположение, площадь, наличие удобств и другие факторы, влияющие на цену объектов недвижимости. Каждый ряд данных соответствует одной квартире и включает её основные характеристики.
Данные содержат следующие ключевые атрибуты:
- Цена (целевая переменная) — стоимость квартиры, которую необходимо предсказать.
- Тип квартиры — студия, однокомнатная, двухкомнатная и т.д.
- Ближайшая станция метро и время до метро — транспортная доступность.
- Регион — Москва или Московская область.
- Количество комнат — основная характеристика жилого помещения.
- Общая площадь, жилая площадь и площадь кухни — размерные параметры квартиры.
- Этаж и количество этажей — информация о расположении квартиры в доме.
- Уровень ремонта — важный фактор, влияющий на стоимость жилья.
Этот набор данных предоставляет детализированную информацию о квартирах, позволяя использовать её для построения моделей прогнозирования цен (Рисунок 1).
Рисунок 1. Набор данных
Набор данных содержит различные типы переменных, каждая из которых имеет определённый формат.
Рисунок 2. Типы данных
- Price (float64) — Цена квартиры представлена в формате чисел с плавающей точкой. Это основная целевая переменная, для которой будет производиться прогнозирование.
- Apartment_type (object) — Тип квартиры, такой как вторичное жилье или новый дом, представлен в виде текстовых данных (объект).
- Metro_station (object) — Название ближайшей станции метро также хранится в виде текстовых данных.
- Minutes_to_metro (float64) — Время, необходимое для пешей прогулки до ближайшей станции метро, представлено в виде чисел с плавающей точкой.
- Region (object) — Регион, в котором находится квартира (Москва или Московская область), хранится как текст.
- Number_of_rooms (float64) — Количество комнат представлено в виде числовых данных с плавающей точкой.
- Area (float64) — Общая площадь квартиры в квадратных метрах, указана числом с плавающей точкой.
- Living_area (float64) — Жилая площадь квартиры, также числовой показатель.
- Kitchen_area (float64) — Площадь кухни в квадратных метрах, представлена числами с плавающей точкой.
- Floor (float64) — Этаж, на котором находится квартира, числовой показатель с плавающей точкой.
- Number_of_floors (int64) — Общее количество этажей в здании представлено как целое число.
- Renovation (object) — Уровень ремонта в квартире, представленный в виде текстового описания.
Таким образом, данные включают как числовые (float64 и int64), так и категориальные (object) переменные. Числовые переменные используются для количественных характеристик квартиры (цена, площадь, количество этажей), тогда как текстовые описывают качественные параметры, такие как тип квартиры или уровень ремонта.
Рисунок 3. Статистика данных
Price (Цена): Средняя стоимость квартиры составляет 36,1 млн рублей, с очень высокой стандартной ошибкой (82,8 млн), что указывает на значительные колебания цен. Минимальная цена квартиры — 1,1 млн рублей, а максимальная — 2,45 млрд рублей, что говорит о большом разбросе цен в зависимости от характеристик.
Minutes_to_metro (Минут до метро): Среднее время пешего пути до ближайшей станции метро — 11,9 минут. Стандартное отклонение равно 6,2 минутам, что говорит о некотором разбросе. Минимальное время до метро — 0 минут (возможно, квартира находится в непосредственной близости), а максимальное — 60 минут.
Number_of_rooms (Количество комнат): В среднем в квартирах 2 комнаты, что является стандартом. Однако есть квартиры без комнат (возможно, студии) и объекты с до 12 комнат.
Area (Общая площадь): Средняя площадь квартиры составляет 72 квадратных метра. Стандартное отклонение (68,4 м²) говорит о том, что площадь сильно варьируется — от 6 м² (вероятно, очень маленькие студии) до 1117 м² (возможно, элитное жилье).
Living_area (Жилая площадь): Средняя жилая площадь — 38,5 м². Разброс также значительный — от 2 м² до 566,8 м².
Kitchen_area (Площадь кухни): Средний размер кухни составляет 12,6 м². Минимальная площадь кухни — 1 м², а максимальная — 122 м².
Floor (Этаж): Средний этаж, на котором расположены квартиры, — 9,2, но есть квартиры на 92 этаже (очевидно, в высотных зданиях). Минимальный этаж — 1.
Number_of_floors (Количество этажей в здании): Среднее количество этажей в зданиях — 16,6. Наименьшее количество этажей — 1, а наибольшее — 97.
Эти статистические показатели дают представление о том, как сильно варьируются характеристики квартир, включая их цену, площадь и количество комнат, что позволяет проводить дальнейший анализ и прогнозирование стоимости на основе этих данных.
Рисунок 4. Иллюстрирует количество проданных квартир по региону. Согласно диаграмме значительное количество квартир продаются именно в самой Москве.
Рисунок 4. Диаграмма проданных квартир по Москве и Московской области
Следующая диаграмма показывает, что на рынке недвижимости количество вторичного жилья больше, чем количество новых.
Рисунок 5. Диаграмма проданных квартир по типу зданий
Рисунок 6. Распределение цен на квартиры в зависимости от их типа
На данном графике отображается распределение цен на квартиры в зависимости от их типа: "Secondary" (вторичное жилье) и "New building" (новостройки).
Медиана (черная горизонтальная линия) цены на вторичное жилье значительно выше, чем у новостроек. Новостройки имеют более низкую медианную цену. Широкий диапазон (ящик и усы) цен, что говорит о большом разбросе стоимости вторичного жилья. Диапазон цен указывает на то, что некоторые квартиры могут быть крайне дорогими. У новостроек диапазон цен более узкий, что говорит о большей однородности цен. Оба типа квартир имеют выбросы (outliers) — это объекты с ценами, значительно превышающими основные данные. У вторичного жилья значительно больше выбросов, что говорит о наличии очень дорогих объектов на рынке, возможно элитных квартир.
Вторичное жилье имеет более широкий разброс цен и большую долю высокоценных объектов. Новостройки, наоборот, характеризуются более стабильными и, как правило, меньшими ценами.
Рисунок 7. График зависимости между ценой квартиры и ее площадью
На данном графике представлена диаграмма рассеяния (scatter plot), показывающая зависимость между ценой квартиры (по оси Y) и ее площадью в квадратных метрах (по оси X).
Чем больше площадь квартиры, тем выше ее цена. Это закономерность, которая ожидаема, так как цена жилья в значительной степени зависит от его размеров. Бóльшая часть квартир имеет площадь до 200 квадратных метров и стоимость до 10810^8108 (100 миллионов). Эти значения указывают на стандартные предложения квартир среднего и небольшого метража.
На графике также присутствуют объекты с очень большой площадью (свыше 600 квадратных метров) и соответствующе высокой ценой (более 1 миллиарда). Это, вероятно, элитные или уникальные объекты недвижимости.
Наблюдается значительный разброс данных для больших площадей (свыше 200 квадратных метров), что говорит о том, что на цену влияют и другие факторы, помимо площади. Квартиры с одной и той же площадью могут значительно различаться в цене в зависимости от местоположения, уровня отделки, инфраструктуры и других факторов.
Цена квартиры в Москве и Московской области в целом увеличивается с ростом площади, но для элитного жилья разброс цен становится значительно шире, что указывает на дополнительные факторы, влияющие на стоимость недвижимости.
Рисунок 8. Диаграмма размаха зависимости между ценой квартиры и количеством комнат
На графике показана зависимость между ценой квартиры и количеством комнат с помощью boxplot. Цена квартиры увеличивается с увеличением количества комнат. Это очевидно, так как большее количество комнат обычно связано с большей площадью и более высокой стоимостью. Квартиры с 1-4 комнатами имеют относительно схожее распределение цен. Средние цены увеличиваются с ростом количества комнат, однако разброс начинает заметно увеличиваться начиная с 3 комнат.
На графике присутствуют значительные выбросы для квартир с количеством комнат от 0 до 6. Эти квартиры стоят значительно больше, чем большинство других в своей категории. Например, квартиры с 6 комнатами имеют выбросы, превышающие 1 миллиард рублей. Видно, что квартиры с 6 комнатами имеют большое разнообразие в цене, что может свидетельствовать о том, что такие объекты часто принадлежат к сегменту элитного жилья с особыми характеристиками.
Квартиры с более чем 7 комнатами встречаются реже, и их данные на графике ограничены, что может указывать на эксклюзивность таких предложений на рынке. Чем больше комнат в квартире, тем выше её средняя цена. Однако квартиры с большим количеством комнат демонстрируют гораздо более широкий диапазон цен, что говорит о влиянии других факторов, таких как местоположение, качество ремонта, инфраструктура, и статус жилья.
Далее спрогнозируем цены на квартиры при помощи метода машинного обучения Random Forest Regressor.
Рисунок 9. График спрогнозированных и фактических данных
На графике сравниваются фактические значения цен на квартиры с спрогнозированными значениями: красные точки — это фактические значения, синие точки — спрогнозированные моделью значения, черная пунктирная линия — линия идеального соответствия, на которой находятся точки, если бы модель предсказывала абсолютно точно.
Большинство точек (синие) находятся близко к черной линии, что говорит о том, что предсказания модели достаточно точны, хотя и есть некоторое количество отклонений.
Mean Squared Error (MSE): Это метрика, измеряющая среднеквадратичное отклонение предсказанных значений от фактических = 1427140751266827.2, а R² Score (коэффициент детерминации)=0.7846.
MSE = 1427140751266827.2 — это довольно большое значение, что указывает на значительные отклонения предсказанных цен от фактических. Важно отметить, что данная метрика имеет единицы измерения в квадрате, поэтому для интерпретации можно также воспользоваться квадратным корнем из MSE (Root Mean Squared Error, RMSE). R² = 0.7846. Значение R² близко к 1 указывает на хорошее качество модели. В вашем случае модель объясняет примерно 78% дисперсии данных, что является неплохим результатом. Однако 22% дисперсии остаются неучтенными моделью, что может говорить о наличии факторов, которые не были учтены при обучении.
Модель Random Forest Regressor показала неплохие результаты с коэффициентом детерминации R² = 0.7846, что указывает на высокую предсказательную способность. Однако высокое значение Mean Squared Error указывает на необходимость дальнейшего улучшения модели.
На графике ниже изображен график плотности фактических и прогнозируемых значений. Такой график визуализирует распределение двух наборов данных — фактических и предсказанных значений. Это используется для анализа того, насколько близко распределение прогнозируемых значений (оранжевая линия) соответствует фактическим данным (синяя линия).
Рисунок 10. График плотности фактических и прогнозируемых значений
Синяя линия представляет плотность фактических значений. Оранжевая линия представляет плотность спрогнозированных значений. Сравнивая эти линии, можно увидеть, насколько прогнозы модели соответствуют фактическим данным. Если линии близки друг к другу, это свидетельствует о том, что модель хорошо справляется с прогнозированием. Если наблюдаются значительные отклонения, это может означать, что модель делает ошибки в предсказаниях для определенных диапазонов данных.
На графике видно, что обе линии имеют очень схожие пики, что говорит о том, что модель достаточно точно прогнозирует значения в этой области. Однако можно заметить небольшие отклонения на участках, где плотность значительно снижается. Эти отклонения могут указывать на случаи, где модель не так точно воспроизводит реальные данные. Точность модели составляет 0.977.
Данный график используется для оценки точности модели прогнозирования. Он позволяет наглядно увидеть, насколько хорошо модель "обучена" и как она справляется с задачей предсказания на основе фактических данных. Если линии на графике плотно совпадают, можно сделать вывод о высоком качестве модели; если наблюдаются значительные расхождения — это сигнал о необходимости улучшения модели или пересмотра метода прогнозирования.

Заключение

В рамках данного курсового проекта была рассмотрена задача анализа и прогнозирования цен на квартиры в Москве с использованием современных методов машинного обучения. Проведённый анализ позволил выделить ключевые факторы, влияющие на стоимость недвижимости, такие как расположение квартиры, её площадь, количество комнат, удалённость от станций метро, уровень ремонта и другие характеристики. С учетом этих факторов была разработана предсказательная модель, которая успешно прошла обучение на предоставленных данных и продемонстрировала высокую точность прогнозирования.
Одним из важнейших достижений данного исследования стало использование машинного обучения для моделирования сложных взаимосвязей между характеристиками недвижимости и её рыночной стоимостью. Разработанная модель позволяет не только анализировать существующие данные, но и с высокой степенью точности предсказывать стоимость жилья на основе его характеристик. Это может оказаться особенно полезным для всех участников рынка недвижимости — от частных покупателей до застройщиков и инвесторов, которым необходимо принимать взвешенные и обоснованные решения.
Результаты проекта также подтвердили актуальность применения данных технологий в условиях динамично меняющегося рынка недвижимости Москвы. В условиях нестабильной экономической ситуации, изменения спроса и предложения, прогнозирование цен с использованием предсказательных моделей становится важным инструментом, позволяющим минимизировать риски и более точно планировать финансовые операции.
Основные выводы исследования показывают, что использование машинного обучения для прогнозирования цен на жилье является эффективным подходом, который позволяет автоматизировать сложные аналитические процессы и значительно повысить точность оценок. В будущем данная методика может быть расширена и адаптирована для других регионов и рынков недвижимости, что делает её универсальной и перспективной для широкого круга задач.
Таким образом, разработанная модель не только демонстрирует возможности современных технологий, но и предоставляет практическую пользу, позволяя участникам рынка лучше ориентироваться в условиях нестабильности, оптимизировать свои стратегии и принимать более обоснованные решения.
Литература
Харрисон, В., Пальери, Дж. Почти 1 миллион новых угроз вредоносного ПО появляется каждый день [Электронный ресурс]. – Режим доступа: https://money.cnn.com/2015/04/14/technology/security/cyber-attack-hacks-security/ (дата обращения: 14.04.2019).
Су, Дж., Данило Васконцеллос, В., Прасад, С., Даниеле, С., Фенг, Ю., Сакурай, К. Легковесная классификация IoT-вредоносного ПО на основе распознавания изображений // 42-я ежегодная конференция по программному обеспечению и приложениям IEEE (COMPSAC), Токио. – 2018. – С. 664–669.
Cisco. Ежегодный отчет по кибербезопасности за 2018 год [Электронный ресурс]. – Режим доступа: https://www.cisco.com/c/m/en_au/products/security/offers/annual-cybersecurity-report-2018.html (дата обращения: 2018).
Ранкин, Б. Краткая история вредоносного ПО [Электронный ресурс]. – Режим доступа: https://www.lastline.com/blog/history-of-malware-it-evolution-and-impact/ (дата обращения: 05.04.2018).
Virusshare.com [Электронный ресурс]. – Режим доступа: https://virusshare.com/ (дата обращения: 2018).
Нгуен, К.Д.Т., Туан, Т.М., Ле, С.Х., Вьет, А.П., Огава, М., Минь, Н.Л. Сравнение трех подходов на основе глубокого обучения для обнаружения IoT-вредоносного ПО // 10-я международная конференция по знанию и системной инженерии (KSE), Хошимин. – 2018. – С. 382–388.
Сисодия, Д., Сингх, Л., Сисодия, С. Методы кластеризации: Краткий обзор различных алгоритмов кластеризации // Международный журнал компьютерных наук и управления информацией. – 2012. – Т. 1. – № 2. – С. 61–66.
Лю, Дж. Руководство по алгоритму кластеризации K-средних [Электронный ресурс]. – Режим доступа: https://www.kdnuggets.com/2019/05/guide-k-means-clustering-algorithm.html (дата обращения: май 2019).
K-Means Advantages and Disadvantages [Электронный ресурс]. – Режим доступа: https://developers.google.com/machine-learning/clustering/algorithm/advantages-disadvantages (дата обращения: 2018).
Редди, Ч. Понимание концепции иерархической техники кластеризации [Электронный ресурс]. – Режим доступа: https://towardsdatascience.com/understanding-the-concept-of-hierarchical-clustering-technique-c6e8243758ec (дата обращения: 10.12.2018).
Наик, А. Алгоритм иерархической кластеризации [Электронный ресурс]. – Режим доступа: https://sites.google.com/site/dataclusteringalgorithms/hierarchical-clustering-algorithm (дата обращения: 2018).
Сейф, Г. 5 алгоритмов кластеризации, которые нужно знать каждому ученому-данных [Электронный ресурс]. – Режим доступа: https://towardsdatascience.com/understanding-the-concept-of-hierarchical-clustering-technique-c6e8243758ec (дата обращения: 06.02.2018).
Лутинс, Э. DBSCAN [Электронный ресурс]. – Режим доступа: https://medium.com/@elutins/dbscan-what-is-it-when-to-use-it-how-to-use-it-8bd506293818 (дата обращения: 06.09.2017).
Лю, Дж., Цзявей. Алгоритмы и приложения для кластеризации данных. – Чапман и Холл/CRC. – 2014.
Ауллай, А. Спектральная кластеризация для начинающих [Электронный ресурс]. – Режим доступа: https://towardsdatascience.com/spectral-clustering-for-beginners-d08b7d25b4d8 (дата обращения: 08.05.2018).
Доши, Н. Спектральная кластеризация [Электронный ресурс]. – Режим доступа: https://towardsdatascience.com/spectral-clustering-82d3cff3d3b7 (дата обращения: 05.02.2019).
Чжан, Т., Рамакришнан, Р. Birch [Электронный ресурс]. – Режим доступа: https://slideplayer.com/slide/4224423/ (дата обращения: 2018).

Подробное описание

📘 О чем эта работа

В курсовом проекте рассмотрено прогнозирование цен на квартиры в Москве и Московской области на основе публичного набора данных с платформы Kaggle (сбор — ноябрь 2023). Объект исследования — рынок недвижимости Москвы; предмет — взаимосвязь характеристик квартир (площадь, число комнат, район, расстояние до метро, этажность, тип жилья, уровень ремонта) и их рыночной стоимости. Цель — построение предсказательной модели цены квартиры.

📚 Что внутри

Работа содержит полный цикл анализа: от описания набора данных до обучения и оценки модели.

Таблицы с исходными признаками: Price, Apartment_type, Metro_station, Minutes_to_metro, Region, Number_of_rooms, Area, Living_area, Kitchen_area, Floor, Number_of_floors, Renovation.
Статистический обзор: средняя цена ~36,1 млн ₽, стандартное отклонение 82,8 млн ₽, диапазон цен от 1,1 млн до 2,45 млрд ₽; средняя площадь 72 м², среднее время до метро ~11,9 мин.
Предобработка: удаление пропусков и дубликатов, кодирование категорий (one-hot/label), нормализация числовых признаков.
Визуализации: распределения цен по типу жилья, scatter plot 'цена — площадь', boxplot 'цена — количество комнат', диаграммы продаж по регионам.
Моделирование: обучена регрессионная модель Random Forest Regressor; оценка качества: R² = 0.7846, MSE = 1.4271407512668272e+15 (RMSE ≈ 37,8 млн ₽). Приведены графики фактических и прогнозных значений, графики плотности распределений.
Выводы и рекомендации по использованию модели и направлениям доработки (добавление внешних макроэкономических факторов, таргетирование элитных сегментов).

📊 Для кого подходит

Полезно студентам экономических и IT-специальностей, курсам по машинному обучению и анализу данных, специалистам по оценке недвижимости, риелторам и инвесторам, которым нужен готовый пример пайплайна от сбора данных до оценки модели.

✨ Особенности

Актуальность: набор данных собран в ноябре 2023 года. Практичность: готовые скрипты предобработки и визуализаций на Python (Pandas, Matplotlib, Seaborn, Plotly, Bokeh). Конкретные количественные результаты модели (R² и MSE) и визуальные сравнения факта и прогноза позволяют быстро адаптировать работу под реальную оценку объектов. В работе выделены ключевые признаки, влияющие на цену (площадь, расположение, близость к метро, тип жилья, ремонт).

❓ Частые вопросы

Подойдет ли для моего ВУЗа?
Структура включает введение, аналитическую и проектную части, заключение и список литературы — соответствует типовым требованиям курсовых работ.

Можно адаптировать?
Да. Модель и предобработка легко настраиваются под другой период выборки, регион или добавление макроэкономических показателей.

Готовая курсовая: Прогноз цен на квартиры в Москве