分词工具的选择:python
如今对于中文分词,分词工具备不少种,好比说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,而且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,而且分词效果还很不错。工具
分词前的准备:3d
待分词的中文文档blog
存放分词以后的结果文档文档
中文停用词文档(用于去停用词,在网上能够找到不少)im
分词以后的结果呈现:img
图1 去停用词和分词前的中文文档co
图2去停用词和分词以后的结果文档中文文档
分词和去停用词代码实现:中文