48 lines
1.1 KiB
Markdown
48 lines
1.1 KiB
Markdown
# 大数据与人工智能期中作业: MovieLens 1M 数据集处理与分析
|
|
|
|
`matrix_factorization.py` 负责利用矩阵分解方法对数据集进行处理与预测填补。
|
|
|
|
`analyzer.py` 负责结合预测填补后的用户-评分矩阵数据和原始数据进行初步分析。
|
|
|
|
`dataset` 内是 MovieLens 1M 数据集。
|
|
|
|
`result` 内是经过矩阵分解进行处理与预测填补的数据。
|
|
|
|
`analysis_results` 内是对以上数据进行初步分析的结果。
|
|
|
|
## MovieLens 1M 数据集
|
|
|
|
MovieLens 1M 电影评分数据集包含了 6000 名用户对 4000 部电影的 100 万条评分。发布于2003年2月。
|
|
|
|
[数据集链接](https://grouplens.org/datasets/movielens/1m/)
|
|
|
|
## 数据集处理与预测填补: 矩阵分解
|
|
|
|

|
|
|
|
## 数据初步分析
|
|
|
|
### 用户
|
|
|
|
- 年龄
|
|
- 性别
|
|
- 职业
|
|
- 地域分布(邮政编码)
|
|
|
|
### 电影
|
|
|
|
- 类别
|
|
- 上映年份
|
|
|
|
### 评分数据
|
|
|
|
- 评分分布情况
|
|
- ...
|
|
|
|
### 综合分析
|
|
|
|
- 基于用户年龄
|
|
- 基于用户性别
|
|
- 基于用户职业
|
|
- ...
|