在采集美女站时,须要对关键词进行分词,最终采用的是python的结巴分词方法.python
中文分词是中文文本处理的一个基础性工做,结巴分词利用进行中文分词。其基本实现原理有三点:算法
安装(Linux环境)工具
下载工具包,解压后进入目录下,运行:python setup.py install搜索引擎
模式spa
接口code
实例索引
#! -*- coding:utf-8 -*-
import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all = True)
print "Full Mode:", ' '.join(seg_list)
seg_list = jieba.cut("我来到北京清华大学")
print "Default Mode:", ' '.join(seg_list)
结果接口