python使用jieba实现中文文档分词和去停用词

分词工具的选择:python

  如今对于中文分词,分词工具备不少种,好比说:jieba分词、thulac、SnowNLP等。在这篇文档中,笔者使用的jieba分词,而且基于python3环境,选择jieba分词的理由是其比较简单易学,容易上手,而且分词效果还很不错。工具

 

分词前的准备:3d

待分词的中文文档blog

存放分词以后的结果文档文档

中文停用词文档(用于去停用词,在网上能够找到不少)im

 

分词以后的结果呈现:img

图1 去停用词和分词前的中文文档co

图2去停用词和分词以后的结果文档中文文档

 

分词和去停用词代码实现:中文

相关文章
相关标签/搜索