top of page

Прогнозирование цен на недвижимость в России. Изучение влияния разных факторов на стоимость жилья

Это проект моего диплома, выполненного после завершения курса Нетологии "Аналитик данных с нуля до middle". Посмотреть и скачать работу можно здесь.

Основной целью любого бизнеса является максимизация прибыли. Бизнес-задачи отражают конкретные проблемы, которые должны быть решены для достижения поставленной цели. 

В данном исследовании были выделены следующие бизнес-задачи:

  • по имеющимся данным изучить факторы, которые влияют на стоимость квадратного метра жилья;

  • определить, меняются ли эти факторы с течением времени (наблюдаются ли изменения по прошествии, например, 4 месяцев).

Бизнес-требования по задачам:

  1. Выявить топ-3 фактора, оказывающих самое сильное влияние на стоимость квадратного метра.

  2. Отследить, поменялась ли тройка самых значимых факторов через 4 месяца.

Для данного датасета были протестированы следующие гипотезы:

  1. Нулевая: между стоимостью квартир в одном ЖК с 1 по 22 этаж и с 22 по 44 этаж нет различий. Альтернативная: различия в стоимости есть.

  2. Нулевая: между стоимостью квартир в самом чистом и самом грязном округах Москвы нет различий. Альтернативная: различия в стоимости есть.

Основной целью любого бизнеса является максимизация прибыли. Бизнес-задачи отражают конкретные проблемы, которые должны быть решены для достижения поставленной цели. 

В данном исследовании были выделены следующие бизнес-задачи:

  • по имеющимся данным изучить факторы, которые влияют на стоимость квадратного метра жилья;

  • определить, меняются ли эти факторы с течением времени (наблюдаются ли изменения по прошествии, например, 4 месяцев).

Бизнес-требования по задачам:

  1. Выявить топ-3 фактора, оказывающих самое сильное влияние на стоимость квадратного метра.

  2. Отследить, поменялась ли тройка самых значимых факторов через 4 месяца.

Для данного датасета были протестированы следующие гипотезы следующие гипотезы:

  1. Нулевая: между стоимостью квартир в одном ЖК с 1 по 22 этаж и с 22 по 44 этаж нет различий. Альтернативная: различия в стоимости есть.

  2. Нулевая: между стоимостью квартир в самом чистом и самом грязном округах Москвы нет различий. Альтернативная: различия в стоимости есть.

Исследуемый датасет - набор данных, содержащий информацию о приобретенной недвижимости в Московской области. Датасет содержит 56 столбцов и 39199 строк. Релевантными являются 22 поля.

Анализ данных проведен с помощью Python (ссылка: https://colab.research.google.com/drive/1E2WtkzKJiTtmSyEv6OODE5EnXw-Grj3n?usp=sharing ).

 

 

 

 

 

 

 

 

 

Очистка данных

Первым шагом очистки данных было удаление столбца Комнатность, т.к. он содержит всего лишь 26,5% релевантных данных. Кроме того, данные этого столбца дублируются в Типе комнатности. 

Вторым шагом были удалены из датафрейма строки с информацией по нежилым объектам недвижимости, т.к. целью исследования является установление факторов, влияющих на стоимость именно жилья. 

После осуществления первых двух шагов количество неизвестных значений в столбце с комнатами снизилось до 2,41%. Столбцы со сроком сдачи и отделкой до 1,27% и со стадией строительства в дату ДДУ - до 1,81%. 

После очистки данных пропуски остались только в столбце с типом обременения, однако это говорит лишь о том, что квартиру покупали не в ипотеку. Осталось 22835 объектов недвижимости, по которым можно проводить анализ.

Для дальнейшего анализа преобразуем тип данных в столбце Дата регистрации в тип данных datatime. Посмотрим период, за который есть данные – с 9 января 2022 по 3 июня 2022, т.е. за 145 дней.

Далее необходимо провести работу с выбросами. Для этого целесообразно построить boxplot, затем посчитать аномальные значения через межквартальный размах. Все действия выполняем для колонки цена за квадратный метр. Выбросами будут считаться объекты недвижимости, у которых цена за квадратный метр превышает 526200 руб., таких объектов 606 штук.

На данном этапе удалены пропуски, устранены аномалии. Данные очищены и готовы к работе. 

Корреляция

Для того, чтобы ответить на вопрос, какие факторы больше всего влияют на стоимость квадратного метра жилья, необходимо вычислить такой показатель как корреляция.

Такое исследование можно проводить только над столбцами с числовыми типами данных. В исходном датасете таких колонок мало, поэтому необходимо перекодировать столбцы со строковыми данными. Первым шагом нужно посмотреть, какие уникальные значения содержатся в столбцах. Смотрим столбцы с округами, районами, типом комнатности, типом обременения, классом, зоной, сроком сдачи, отделкой и стадией строительства в дату ДДУ. Далее столбцы, где меньше 10 значений перекодируем в числовые. Сюда попадают все перечисленные, кроме срока сдачи и районов.

В результате каждой категориальной переменной было присвоено числовое значение. После этого можно посмотреть значения коэффициентов корреляции. Удобно их вывести на тепловую карту.

 

 

 

 

 

 

 

Рисунок 1 - Тепловая карта с коэффициентами корреляции

Видно, что на цену квадратного метра в большей степени влияют такие показатели, как: зона (-0,46), наличие отделки (0,35), класс (-0,55) и оценка цены (0,52). Но даже эти коэффициенты говорят лишь об умеренной связи между величинами.

В свою очередь, на оценку цены сильно влияет площадь (0,84), т.е этот параметр лежит в основе оценки. Хотя для итоговой цены размер квартиры значения практически не имеет (0,012).

Теперь посмотрим, влияет ли временной промежуток на силу взаимосвязи между переменными. Для этого создадим два датафрейма, разделив их по временным промежуткам. Первый с 01.09.2022 по 20.03.2022, второй с 21.03.2022 по 03.06.2022. Результаты также будут выведены на тепловую карту.

 

 

Рисунок 2 - Тепловая карта с коэффициентами корреляции за период с 09.01.2022 по 21.03.2022

Рисунок 3 - Тепловая карта с коэффициентами корреляции за период с 22.03.2022 по 03.06.2022

Видно, что с течением времени коэффициенты корреляции немного поменялись: класс - 0,56 и 0,54; отделка - 0,34 и 0,38; зона - 0,43 и 0,5. Во втором временном интервале наличие/отсутствие отделки и зона расположения ЖК оказывают чуть более сильное влияние на цену квадратного метра.

Визуализация

Теперь можно исследовать датасет при помощи построения разных визуализаций. Первая из них - форма распределения цены за квадратный метр. 

 

 

 

 

Рисунок 4 - Распределение столбца цена за квадратный метр

Форма этого распределения близка к нормальному (колоколообразная). Средняя цена по Москве за квадрат, согласно датасету, составляет 308 269 рублей, минимальная - 107 337 рублей, максимальная - 526 038 (после удаления выбросов). 

Далее можно посмотреть формы распределений по другим столбцам. Например, по классам. 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рисунок 5 - Распределение столбца класс

Форма такого распределения уже не является нормальной. По графику явно видно, что покупатели предпочитают один класс всем остальным, и это класс комфорт. 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рисунок 6 - Распределение столбца зона

По зонам форма распределения снова близка к нормальному. Чаще всего выбирают зону от ТТК до МКАД.

Если вывести количество совершенных сделок по разным округам, то видно, что больше всего покупают квартиры в Юго-восточном административном округе (4656), меньше всего - в центральном (248). Это позволяет сделать вывод о доступности жилья, в центре, очевидно, выбор жилья ограничен, а цены высокие. 

По районам ситуация следующая: самый популярный - Очаково-Матвеевское (1735), реже всего выбирают Лианозово (1).

Следующим шагом можно вывести таблицы с максимальными ценами за квадрат по округам, районам и застройщикам.

 

 

 

 

 

 

 

 

 

 

 

 

Таблицы 1,2,3 - Топ-10 максимальных цен по застройщикам, районам и округам (расшифровка для округов: 0 - ВАО, 1-ЗАО, 2-ЗелАО, 3-САО, 4-СВАО, 5-СЗАО, 6-ЦАО, 7-ЮАО, 8-ЮВАО, 9-ЮЗАО).

В 10 районах максимальная цена за квадрат не отличается. При этом по нескольким округам также можно проследить наличие цен выше 500 тысяч за квадрат. На основании этого можно сделать вывод, что в разных районах и округах представлено жилье разного класса.

Далее при помощи боксплотов можно сравнить цены по районам и округам.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Рисунок 7, рисунок 8 - боксплоты с распределением цен по округам и районам

В некоторых округах (ВАО, ЗАО, САО, СВАО, ЮВАО) наблюдается наличие выбросов. Причем со стороны максимальной цены. Это еще один показатель наличия жилья премиум класса. По районам выбросы встречаются как со стороны максимума, так и со стороны минимума. 

Самые часто встречающиеся объекты в датасете: 

  • Район: Очаково-Матвеевское

  • Округ: 8.0 (ЮВАО)

  • Класс: 1.0 (комфорт)

  • Застройщик: ПИК

  • ЖК: Люблинский парк

  • Количество комнат: 0.0

  • Площадь: 20.0

  • Этаж: 3

Построение модели линейной регресии

Посмотрим модель, предсказывающую цену за квадратный метр на основе некоторых признаков. Для этого выберем 3, которые оказывают наибольшее влияние на стоимость. Согласно разделу корреляция, этими признаками являются зона, наличие отделки и класс. 

В переменную X (независимую) передаем признаки - класс, отделка и зона. В переменную Y передаем параметр, который нужно предсказать на основе признаков - цену за квадратный метр.

Далее разбиваем данные на 2 группы, 1-ая группа тренировочная, на этой группе модель будет обучаться, 2-ая группа тестовая – с помощью этой группы проверим, как модель справляется с предсказанием. Получаем 4 группы - X_train, X_test, y_train, y_test.

Далее создаем модель линейной регрессии и обучаем ее на X_train и y_train. Затем получаем предсказание на основе тестовой группы X_test.

Полученные предсказания сравниваем с тестовой группой y_test , видим, что полученные результаты не очень похожи на данные в тестовой группе, это говорит о том, что модель не очень хорошо справилась с предсказанием.

 

 

 

 

 

 

 

 

 

 

 

Таблица 4 - сравнение тренировочной и тестовой выборок

Также для оценки качества модели рассчитаем RMSE (среднеквадратическую ошибку). Значение RMSE на тестовой выборке меньше, чем на тренировочной, что говорит о том, что модель хорошо обучилась.

Получаем коэффициент детерминации. Он получился ближе к 0, чем к 1, это говорит о том, что модель имеет низкую значимость, т.е. зависимость между переменными носит нелинейный характер. В нашем случае модель не очень хорошо справилась с предсказанием из-за того, что между переменными не наблюдается сильно корреляции (она меньше 70%).

Попробуем предсказать цену за квадратный метр, указав зону, наличие отделки и класс. Зададим зону 2.0 - Москва за МКАД, наличие отделки 2.0 - нет и класс 3.0 - эконом. Получилась цена 218 328 рублей за квадратный метр.​

Тестирование гипотез

Были протестированы гипотезы: 

  • Нулевая: между стоимостью квартир в одном ЖК с 1 по 22 этаж и с 22 по 44 этаж нет различий. Альтернативная: различия в стоимости есть.

  • Нулевая: между стоимостью квартир в самом чистом и самом грязном округах Москвы нет различий. Альтернативная: различия в стоимости есть.

В обоих случаях примем уровень значимость равный 0,05. И в обоих случаях будет применен двусторонний тест, т.к. значения по выборке сравниваются не с константой, а с диапазоном значений. 

  • В первом случае выберем ЖК Вилл Тауэрс в районе Раменки. По результатам теста между стоимостью с 1 по 22 и с 23 по 44 этажи нет различий. 

  • Во втором случае выбираем самый чистый (СЗАО) и самый загрязненный (ЦАО) округа Москвы. По результатам теста отвергаем нулевую гипотезу, между стоимостью есть различия.​

Выводы и рекомендации

  • В процессе очистки данных были выявлены следующие недостатки: большое количество пропусков в столбце с количеством комнат (при этом данная информация дублировалась в колонке с типом комнат), не заполнена ⅓ данных по отделке, некорректно указана площадь и цена за квадрат (используются символы, которые пришлось заменить), в одном датасете собрана вся информация по всем объектам недвижимости (квартиры, офисы, машино-места, для удобства лучше это разделить). 

  • На основании проведенной работы можно сделать выводы о том, как складываются цены на квартиры в Москве. В большей степени на стоимость квадратного метра влияют класс жилья (эконом, комфорт, бизнес или премиум), наличие или отсутствие отделки, зона расположения ЖК (в пределах МКАД и ТТК или нет). Однако связь между этими показателями и ценой является все же умеренной. Поэтому построенная предиктивная модель в данном случае имеет низкую значимость. 

  • На основе протестированных гипотез можно дать рекомендации инвестиционным стейкхолдерам: выбирать для строительства более чистые районы Москвы, тогда можно будет увеличить стоимость квадратного метра. Кроме того, можно сделать различие в стоимости в зависимости от выбранного этажа (чем выше, тем дороже). Стейкхоледарам-потребителям можно дать обратные рекомендации: для экономии средств обращать внимание на округ, в котором построен ЖК. Анализировать, насколько важно наличие отделки (на этом также можно сэкономить).

bottom of page