达观杯文本智能处理挑战赛练习

时间 2020-12-29

原文原文链接

数据说明比赛官方对数据的说明是数据包含两个文件：train_set.csv和test_set.csv 一.初识数据 train_set.csv:此数据集用于训练模型，每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列：第一列是文章的索引(id) 第二列是文章正文在“字”级别上的表示，即字符相隔正文(article) 第三列是在“词”级别上的表示, 即词语相隔正文(wor