041 模块5-jieba库的使用

时间 2019-11-07

标签模块 jieba 使用繁體版

原文原文链接

目录python

1、jieba库基本介绍

1.1 jieba库概述

jieba是优秀的中文分词第三方库函数

中文文本须要经过分词得到单个的词语
jieba是优秀的中文分词第三方库，须要额外安装
jieba库提供三种分词模式，最简单只需掌握一个函数

1.2 jieba库的安装

pip install jieba(cmd命令行)ui

1.3 jieba分词的原理

Jieba分词依靠中文词库搜索引擎

利用一个中文词库，肯定汉字之间的关联几率
汉字间几率大的组成词组，造成分词结果
除了分词，用户还能够添加自定义的词组

2、jieba库使用说明

2.1 jieba分词的三种模式

精确模式、全模式、搜索引擎模式命令行

精确模式：把文本精确的切分开，不存在冗余单词
全模式：把文本中全部可能的词语都扫描出来，有冗余
搜索引擎模式：在精确模式基础上，对长词再次切分

2.2 jieba库经常使用函数

函数	描述
jieba.lcut(s)	精确模式，返回一个列表类型的分词结果
jieba.lcut(s, cut_all=True)	全模式，返回一个列表类型的分词结果，存在冗余
jieba.lcut_for_search(s)	搜索引擎模式，返回一个列表类型的分词结果，存在冗余
jieba.add_word(w)	向分词词典增长新词w

import jieba

jieba.lcut("中国是一个伟大的国家")

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/mh/krrg51957cqgl0rhgnwyylvc0000gn/T/jieba.cache
Loading model cost 0.979 seconds.
Prefix dict has been built succesfully.





['中国', '是', '一个', '伟大', '的', '国家']

jieba.lcut("中国是一个伟大的国家",cut_all=True)

['中国', '国是', '一个', '伟大', '的', '国家']

jieba.lcut("中华人民共和国是伟大的")

['中华人民共和国', '是', '伟大', '的']

jieba.lcut("中华人民共和国是伟大的",cut_all=True)

['中华', '中华人民', '中华人民共和国', '华人', '人民', '人民共和国', '共和', '共和国', '国是', '伟大', '的']

jieba.lcut_for_search("中华人民共和国是伟大的")

['中华', '华人', '人民', '共和', '共和国', '中华人民共和国', '是', '伟大', '的']

jieba.add_word("蟒蛇语言")

2.3 分词要点

jieba.lcut(s)code