# 大数据与人工智能期中作业: MovieLens 1M 数据集处理与分析 `matrix_factorization.py` 负责利用矩阵分解方法对数据集进行处理与预测填补。 `analyzer.py` 负责结合预测填补后的用户-评分矩阵数据和原始数据进行初步分析。 `dataset` 内是 MovieLens 1M 数据集。 `result` 内是经过矩阵分解进行处理与预测填补的数据。 `analysis_results` 内是对以上数据进行初步分析的结果。 ## MovieLens 1M 数据集 MovieLens 1M 电影评分数据集包含了 6000 名用户对 4000 部电影的 100 万条评分。发布于2003年2月。 [数据集链接](https://grouplens.org/datasets/movielens/1m/) ## 数据集处理与预测填补: 矩阵分解 ![流程图](https://static.cattom.site/img/mermaid-diagram-1746403304091.png) ## 数据初步分析 ### 用户 - 年龄 - 性别 - 职业 - 地域分布(邮政编码) ### 电影 - 类别 - 上映年份 ### 评分数据 - 评分分布情况 - ... ### 综合分析 - 基于用户年龄 - 基于用户性别 - 基于用户职业 - ...