Jieba库使用和好玩的词云

时间 2019-12-10

标签 jieba 使用好玩繁體版

原文原文链接

2019-04-03Jieba库使用和好玩的词云dom

1、下载jieba库、wordcloud函数库、matplotlib函数库：函数

依然是用打开cmd索引到scripts里，输入pip intall XXX（xxx是函数库名称），便可下载字体

注：可能要升级pip，输入pip install --upgrade pip来升级spa

2、代码展现（附有注释）：code

 1 from wordcloud import WordCloud  2 import matplotlib.pyplot as plt  3 import jieba  4 #定义建立词云的函数
 5 def create_word_cloud(filename):  6 
 7     text = open("人间失格.txt","r",encoding='utf-8').read()  #打开本身想要的文本
 8     wordlist = jieba.cut(text, cut_all=True)  # 结巴分词
 9 
10     wl = " ".join(wordlist) 11 
12     wc = WordCloud(             #设置词云
13 
14         background_color="white",        # 设置背景颜色
15 
16         max_words=20,        # 设置最大显示的词云数
17 
18         font_path='C:/Windows/Fonts/simfang.ttf',        # 索引在C盘上的字体库
19 
20         height=500, 21 
22         width=500, 23 
24         max_font_size=150,        # 设置字体最大值
25 
26         random_state=150,        # 设置有多少种随机生成状态，即有多少种配色方案
27 
28  ) 29 
30     myword = wc.generate(wl)  # 生成词云
31     plt.imshow(myword)    # 展现词云图
32 
33     plt.axis("off") 34 
35  plt.show() 36 
37     wc.to_file('img_book.png')        # 把词云保存下
38 
39 #展现本身想要的文本的高频词出现次数代码
40 txt=open("人间失格.txt","r",encoding='utf-8').read()   #打开本身想要的文本
41 words=jieba.lcut(txt) 42 counts={} 43 for word in words: 44     if len(word)==1:  #排除单个字符的分词结果
45         continue
46     else : 47         counts[word]=counts.get(word,0)+1
48 items=list(counts.items()) 49 items.sort(key=lambda x:x[1],reverse=True) 50 for i in range(20):   #展现的高频词个数
51     word,count=items[i] 52     print ("{0:<20}{1:>5}".format(word,count)) 53 if __name__ == '__main__': 54 create_word_cloud('人间失格') #将词云展示出来，调用词云函数

（本身下载的一些小说、文章的形式要txt）orm

3、视图展现：blog

( 高频词的出现次数运行图)索引

（词云视图展现）图片

（词云还有背景能够设置成你想要的图片形式，可是我不会，若是想要了解，另寻高人吧，或者等我学会以后再来教大家）ip