В качестве датасета использовались данные условного онлайн-кинотеатра. У нас есть информация о пользователях, фильмах, а так же оценках, которые пользователи поставили тому или иному фильму.
В рамках работы проведено исследование текущей ситуации и решен бизнес-кейс с рекомендациями фильмов пользователям (очевидно, что не все пользователи смотрели все фильмы и нам нужно было каким-то образом рекомендовать пользователю, что ему посмотреть следующим).
В рамках этого учебного проекта требовалось выполнить следующие задачи:
-
Построить гистограмму пользователей по возрасту
-
Построить 2 графика, показывающих распределение людей по профессиям в зависимости от их пола
-
Построить график количества фильмов по жанрам
-
Построить график количества фильмов по годам
-
Построить график количества оценок по месяцам и годам
-
Выявить top-5 самых активных пользователей (больше всего оценок) за последние 3 месяца
-
Загрузить в колаб файлы по оценкам (ratings) и фильмам (movies) и создайте на их основе pandas-датафреймы
-
Средствами Pandas, используя dataframe ratings, найити id пользователя, поставившего больше всего оценок
-
Оставить в датафрейме ratings только те фильмы, который оценил данный пользователь
-
Добавить к датафрейму столбцы:
-
По жанрам. Каждый столбец - это жанр. Единицу записываем, если фильм принадлежит данному жанру и 0 - если нет
-
столбцы с общим количеством оценок от всех пользователей на фильм и суммарной оценкой от всех пользователей
-
-
Взять модель линейной регрессии (или любую другую для задачи регрессии) и обучите ее на фильмах
-
Оценить качество модели на X_test, y_test при помощи метрик для задачи регрессии
-
Загрузить данные в spark
-
Средствами спарка вывести среднюю оценку для каждого фильма
-
Посчитать средствами спарка среднюю оценку для каждого жанра
-
В спарке получить 2 датафрейма с 5-ю самыми популярными и самыми непопулярными фильмами (по количеству оценок, либо по самой оценке)
-
Описать основные бизнес-отчеты (2-3 штуки), которые мы хотим видеть по нашему бизнесу
-
Описать основные имеющиеся данные и источники их поступления
-
Описать основные сущности в хранилище данных (схема звезда) и процесс заливки данных
-
Описать основные проверки на качество данных (10 штук), которыми будем пользоваться при заливке
-
Придумать Data-проект, который должен улучшить показатели Вашего бизнеса и расписать его по Crisp-DM
-
Описать требуемые роли в команде по работе с данными.
Ознакомиться с датасетом можно тут
01
Работа в Google-таблицах
Таблица с пользователями и диаграмма возрастов
Диаграммы профессий мужчин и женщин
Таблица с фильмами
Распределение количества фильмов по годам и по жанрам
03
Теоретическая часть
В ходе теоретической части были составлены основные бизнес-отчеты, выявлены основные источники данных, сущности, проверки, составлен Data-проект и определены основные роли в команде. Полный текст тут.