Python分词库jieba快速入门

时间 2021-01-05

标签 app ide 测试搜索引擎 spa 命令行 code orm 索引栏目 Python 繁體版

原文原文链接

Python有一个库名为jieba的中文分词库，能够把中文句子切分红一个个的词语以用于文本分析、制做词云图等。app

首先咱们要安装jieba，在命令行输入“pip install jieba”便可。jieba有3种分词模式，分别是精准模式（将句子尽可能精准切分开）、全模式（将全部能成为词语的都切分出来）、搜索引擎模式（在精准模式的基础上再次切分比较长的词语）。ide

安装好后就能够直接使用了。测试

import jieba#导入jieba库s = '我喜欢九龙公园游泳池，那里我再也不执着一些往事。'#定义测试字符串

精准模式搜索引擎

jieba.cut(s)#返回的结果是生成器#<generator object Tokenizer.cut at 0x000001E58DCC6248>
print('/'.join(jieba.cut(s)))#将结果用“/”拼接后打印出来：'我/喜欢/九龙/公园/游泳池/，/那里/我/再也不/执着/一些/往事/。'

全模式spa

jieba.cut(s, cut_all=True)#输入参数cut_all=True便是全模式，返回的结果也是生成器
print('/'.join(jieba.cut(s, cut_all=True)))#将结果用“/”拼接后打印出来：'我/喜欢/九龙/公园/游泳/游泳池/泳池/，/那里/我/再也不/执着/一些/往事/。'#能够看到“游泳池”被切分为3个词

搜索引擎模式命令行

jieba.cut_for_search(s)#返回的结果也是生成器
print('/'.join(jieba.cut_for_search(s)))#将结果用“/”拼接后打印出来：'我/喜欢/九龙/公园/游泳/泳池/游泳池/，/那里/我/再也不/执着/一些/往事/。'

获取其它类型的结果code

#在方法面前加上“l”，返回的就是列表了jieba.lcut(s)jieba.lcut(s, cut_all=True)jieba.lcut_for_search(s)

向词典中添加新词orm

jieba.add_word('龙公')#该方法每次只能添加一个词，添加后能够识别该词
print('/'.join(jieba.cut(s, cut_all=True)))#将结果用“/”拼接后打印出来：'我/喜欢/九龙/龙公/公园/游泳/游泳池/泳池/，/那里/我/再也不/执着/一些/往事/。'#能够识别到新添加的词了

1. 工具 | jieba分词快速入门
2. jieba python中文分词库快速入门
3. jieba库分词
4. Python-jieba分词
5. Python Requests库快速入门
6. 结巴(jieba)分词器入门
7. Python中文分词库 - jieba的安装
8. jieba中文分词库
9. jieba库分词统计
10. python jieba 分词进阶
更多相关文章...
• SQL 快速参考 - SQL 教程
• Eclipse 快速修复 - Eclipse 教程
• YAML 入门教程
• Java Agent入门实战（一）-Instrumentation介绍与使用