自然语言处理实践(新闻文本分类)——task02

数据分析 句子长度分析 由赛题题目得知,赛题数据中每行句子的字符使用空格进行隔开,所以可以直接统计单词个数来得到每个句子的长度。总共有20万行数据,其中数据最长的句子有57921个单词,数据最短的句子仅有2个单词。 画出直方图如下,可以看到大多句子数据在1500~3000左右 新闻类别分布 统计每类新闻的样本个数,画出直方图 可以0标签的新闻数量最多,根据标签数字的大小依次递减,可以看出该数据集分
相关文章
相关标签/搜索