达观杯文本智能处理挑战赛练习-数据初识

数据说明 官网提供的数据包含两个csv文件:train_set.csv、test_set.csv train_set.csv 此数据集用于训练模型,每一行对应一篇文章。文章分别在“字”和“词”的级别上做了脱敏处理。共有四列: 第一列是文章的索引(id), 第二列是文章正文在“字”级别上的表示,即字符相隔正文(article); 第三列是在“词”级别上的表示,即词语相隔正文(word_seg); 第
相关文章
相关标签/搜索