Datawhale | 自然语言处理(2)

文章目录 一. THUCNews中文数据集 1.1 数据下载 1.2 数据探索 二. IMDB英文数据集 2.1 数据下载 2.2 数据探索 三. 常用评估方式 3.1 混淆矩阵 一. THUCNews中文数据集 THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。在原始新浪新闻分类体系的基础上
相关文章
相关标签/搜索