ez_douban数据集
ez_douban 说明
- 数据概览: 5 万多部电影(3 万多有电影名称,2 万多没有电影名称),2.8 万 用户,280 万条评分数据
- 推荐实验: 推荐系统
- 数据来源:豆瓣电影
- 原数据集: Douban-1 和 Douban-2,这是 Erheng Zhong 博士 为在 KDD'12, TKDD'14, SDM'12 上发表论文而收集的数据
- 加工处理:
- 去除 Douban-1 中无用的 status 字段,以及无效的评分,并整理成与 MovieLens 兼容的格式
- 从 Douban-2 中提取电影信息和链接信息,并与 Douban-1 中的评分数据进行联表操作
- 进行脱敏操作,以保护用户隐私
import pandas as pd
path = 'ez_douban_文件夹_所在_路径'
1. movies.csv
加载数据
movies = pd.read_csv(path + 'movies.csv')
print('电影数目(有名称):%d' % movies[~pd.isnull(movies.title)].shape[0])
print('电影数目(没有名称):%d' % movies[pd.isnull(movies.title)].shape[0])
print('电影数目(总计):%d' % movies.shape[0])
电影数目(有名称):33258
电影数目(没有名称):24166
电影数目(总计):57424
字段说明
字段 |
说明 |
movieId |
电影 id (从 0 开始,连续编号) |
title |
电影名称 |
movies.sample(20)
|
movieId |
title |
41807 |
41807 |
NaN |
16521 |
16521 |
五女拜寿 |
10689 |
10689 |
La pelote de laine |
21653 |
21653 |
Ma mha 4 khaa khrap |
36630 |
36630 |
the sky the earth and the rain |
31734 |
31734 |
Viva María! |
31530 |
31530 |
远路 |
22553 |
22553 |
NaN |
32346 |
32346 |
NaN |
29429 |
29429 |
The Crazies |
34912 |
34912 |
Stestí |
10350 |
10350 |
羊のうた |
31487 |
31487 |
一触即发 |
50688 |
50688 |
还君明珠 |
40769 |
40769 |
Red Riding Hood |
32748 |
32748 |
NaN |
17204 |
17204 |
작은아씨들 |
55870 |
55870 |
NaN |
42879 |
42879 |
NaN |
26432 |
26432 |
后门 |
2. ratings.csv
加载数据
ratings = pd.read_csv(path + 'ratings.csv')
print('用户数据:%d' % ratings.userId.unique().shape[0])
print('评分数目:%d' % ratings.shape[0])
用户数据:28718
评分数目:2828585
字段说明
字段 |
说明 |
userId |
用户 id (从 0 开始,连续编号) |
movieId |
即 movies.csv 中的 movieId |
rating |
评分,[1,5] 之间的整数 |
timestamp |
评分时间戳 |
ratings.sample(20)
|
userId |
movieId |
rating |
timestamp |
1234569 |
4825 |
14852 |
5 |
1263084471 |
1817521 |
7121 |
140 |
4 |
1259054160 |
2417373 |
9449 |
116 |
3 |
1255344370 |
1234106 |
4822 |
685 |
5 |
1124800342 |
2044878 |
7996 |
22343 |
4 |
1254639194 |
239277 |
947 |
5730 |
5 |
1253992436 |
305034 |
1178 |
9839 |
5 |
1304648204 |
121193 |
527 |
1512 |
4 |
1125694603 |
2563603 |
10758 |
738 |
4 |
1301927887 |
2034193 |
7949 |
1671 |
5 |
1276176595 |
1373543 |
5369 |
893 |
3 |
1299972980 |
1798131 |
7027 |
4530 |
3 |
1178099769 |
572517 |
2243 |
9773 |
3 |
1187275220 |
2160230 |
8470 |
12 |
3 |
1306330169 |
1672554 |
6554 |
5637 |
3 |
1168168788 |
1504944 |
5920 |
6659 |
3 |
1254041654 |
2657986 |
17116 |
738 |
4 |
1238829652 |
2123663 |
8319 |
1242 |
4 |
1225941971 |
561109 |
2206 |
4209 |
3 |
1307884947 |
208970 |
887 |
4723 |
3 |
1306314265 |
3. links.csv
加载数据
links = pd.read_csv(path + 'links.csv')
字段说明
字段 |
说明 |
movieId |
即 movies.csv 和 ratings.csv 中的 movieId |
imdbId |
IMDB 网站的电影编号 |
doubanId |
豆瓣网站的电影编号 |
links.sample(20)
|
movieId |
imdbId |
doubanId |
50304 |
50304 |
NaN |
3712319 |
46231 |
46231 |
NaN |
3035298 |
56597 |
56597 |
NaN |
2980174 |
54191 |
54191 |
86992.0 |
1294617 |
3418 |
3418 |
87406.0 |
1533608 |
6586 |
6586 |
NaN |
6383567 |
52685 |
52685 |
376706.0 |
1770079 |
53372 |
53372 |
218839.0 |
1295836 |
27540 |
27540 |
NaN |
2371674 |
34467 |
34467 |
NaN |
4868728 |
2301 |
2301 |
NaN |
3732699 |
16687 |
16687 |
NaN |
4840386 |
36301 |
36301 |
364457.0 |
1764523 |
44922 |
44922 |
452640.0 |
1920065 |
27815 |
27815 |
114687.0 |
1773480 |
25370 |
25370 |
NaN |
4192036 |
36070 |
36070 |
NaN |
4848096 |
40954 |
40954 |
115906.0 |
1302469 |
38395 |
38395 |
436784.0 |
1857858 |
49680 |
49680 |
NaN |
4168480 |