top of page

В качестве датасета использовались данные условного онлайн-кинотеатра. У нас есть информация о пользователях, фильмах, а так же оценках, которые пользователи поставили тому или иному фильму.

В рамках работы проведено исследование текущей ситуации и решен бизнес-кейс с рекомендациями фильмов пользователям (очевидно, что не все пользователи смотрели все фильмы и нам нужно было каким-то образом рекомендовать пользователю, что ему посмотреть следующим).

В рамках этого учебного проекта требовалось выполнить следующие задачи:

  1. Построить гистограмму пользователей по возрасту

  2. Построить 2 графика, показывающих распределение людей по профессиям в зависимости от их пола

  3. Построить график количества фильмов по жанрам

  4. Построить график количества фильмов по годам

  5. Построить график количества оценок по месяцам и годам

  6. Выявить top-5 самых активных пользователей (больше всего оценок) за последние 3 месяца

  7. Загрузить в колаб файлы по оценкам (ratings) и фильмам (movies) и создайте на их основе pandas-датафреймы

  8. Средствами Pandas, используя dataframe ratings, найити id пользователя, поставившего больше всего оценок

  9. Оставить в датафрейме ratings только те фильмы, который оценил данный пользователь 

  10. Добавить к датафрейму столбцы:

    • По жанрам. Каждый столбец - это жанр. Единицу записываем, если фильм принадлежит данному жанру и 0 - если нет

    • столбцы с общим количеством оценок от всех пользователей на фильм и суммарной оценкой от всех пользователей

  11. Взять модель линейной регрессии (или любую другую для задачи регрессии)  и обучите ее на фильмах

  12. Оценить качество модели на X_test, y_test при помощи метрик для задачи регрессии

  13. Загрузить данные в spark

  14. Средствами спарка вывести среднюю оценку для каждого фильма

  15. Посчитать средствами спарка среднюю оценку для каждого жанра

  16. В спарке получить 2 датафрейма с 5-ю самыми популярными и самыми непопулярными фильмами (по количеству оценок, либо по самой оценке)

  17. Описать основные бизнес-отчеты (2-3 штуки), которые мы хотим видеть по нашему бизнесу

  18. Описать основные имеющиеся данные и источники их поступления

  19. Описать основные сущности в хранилище данных (схема звезда) и процесс заливки данных

  20. Описать основные проверки на качество данных (10 штук), которыми будем пользоваться при заливке

  21. Придумать Data-проект, который должен улучшить показатели Вашего бизнеса и расписать его по Crisp-DM

  22. Описать требуемые роли в команде по работе с данными.

Ознакомиться с датасетом можно тут

01

Работа в Google-таблицах

2022-08-11_15-37-29.png

Таблица с пользователями и диаграмма возрастов

Ознакомиться с таблицей и графиками

Диаграммы профессий мужчин и женщин

Таблица с фильмами

Ознакомиться

Распределение количества фильмов по годам и по жанрам

Таблица с рейтингом, диаграммы по пользователям и месяцам

Ознакомиться

02

Работа при помощи Python

Посмотреть первую и вторую части работы с Python

2022-08-11_16-01-32.png
podgotovka-i-analiz-.jpg

03

Теоретическая часть

В ходе теоретической части были составлены основные бизнес-отчеты, выявлены основные источники данных, сущности, проверки, составлен Data-проект и определены основные роли в команде. Полный текст тут.

bottom of page