jieba分词初学

时间 2019-12-13

原文原文链接

昨天，作的那个数据分析报告用到了jieba分词。可是只是借用了别人的部分代码。具体函数表明什么还不太明白。今天去官网研究了下.....python

jieba官网简介

“结巴”中文分词：作最好的 Python 中文分词组件git

"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.github

支持三种分词模式：函数

精确模式，试图将句子最精确地切开，适合文本分析；
全模式，把句子中全部的能够成词的词语都扫描出来, 速度很是快，可是不能解决歧义；
搜索引擎模式，在精确模式的基础上，对长词再次切分，提升召回率，适合用于搜索引擎分词。
支持繁体分词ui

支持自定义词典搜索引擎

MIT 受权协议code

安装

pip install jieba

分词

jieba.cut 方法接受三个输入参数: 须要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型
jieba.cut_for_search 方法接受两个参数：须要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细
待分词的字符串能够是 unicode 或 UTF-8 字符串、GBK 字符串。注意：不建议直接输入 GBK 字符串，可能没法预料地错误解码成 UTF-8
jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可使用 for 循环来得到分词后获得的每个词语(unicode)，或者用
jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定义分词器，可用于同时使用不一样词典。jieba.dt 为默认分词器，全部全局分词相关函数都是该分词器的映射。索引

官网实例

因此大概明白了生成词云须要的cut方法的具体参数都表明什么。ip

import jieba as jb
str_li = jb.cut("我来到北京清华大学",cut_all=True) # 全模式
print(str_li)
<generator object Tokenizer.cut at 0x00000298C3987FC0> # 能够看到返回了一个生成器。

FullMode = 'Full mode :' + '/'.join(str_li) #全模式（不能解决歧义）
print(FullMode)

str_li = jb.cut("我来到北京清华大学",cut_all=False) # 精确模式
AccMode = 'AccurateMode: ' + '/'.join(str_li)
print(AccMode)

AccurateMode: 我/来到/北京/清华大学 #精确模式（适用于文本分析）

str_li = jb.cut("我来到北京清华大学") #默认
DefMode = 'DefaultMode: ' + '/'.join(str_li)
print(DefMode)

DefaultMode: 我/来到/北京/清华大学 # 咱们能够看到，默认是精确模式

long_sen = jb.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")# 搜索引擎模式
Long = 'search:'+','.join(long_sen)
print(Long)

search:小明,硕士,毕业,于,中国,科学,学院,科学院,中国科学院,计算,计算所,，,后,在,日本,京都,大学,日本京都大学,深造

# 最后统一对比一下：

print(FullMode)
print(AccMode)
print(DefMode)
print(Long)

Full mode :我/来到/北京/清华/清华大学/华大/大学
AccurateMode: 我/来到/北京/清华大学
DefaultMode: 他/来到/了/网易/杭研/大厦
search:小明,硕士,毕业,于,中国,科学,学院,科学院,中国科学院,计算,计算所,，,后,在,日本,京都,大学,日本京都大学,深造

对于基本的词云及词频分析来讲已经足够了，词典什么的情感分析，下次研究。unicode

jeiba地址：https://github.com/fxsjy/jieba