THUCNews_2.2G_toclean

${num_stars} Modify
清华新闻(THUCNews)数据是清华大学自然语言处理实验室整理,根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。 利用其正文与标题,可以构成新闻标题生成数据。整理后数据信息如下: 总数量:830749个样本; 标题:平均字数 19,字数标准差 4,最大字数 48,最小数字 4; 正文:平均字数 892,字数标准差 1012,最大字数 78796,最小数字 31; 数据集清洗时,仅进行了简单地规则清洗。例如:清洗htlm标记、去除多余空字符、去除图片标记等。
File Name
Size
Available Clusters
Status
Creator
Upload Time
Operate
2.0 GiB
CPU/GPU
Private Public
2023-03-14 16:30:06