小猪的Python学习之旅 —— 15.浅尝Python数据分析：分析2018政府工做报告中的高频词

时间 2019-11-21

原文原文链接

一句话归纳本文：html

爬取2018政府工做报告，经过**jieba**库进行分词后作词频统计，最后使用 wordcloud 库制做naive词云，很是有意思～python

引言：git

昨晚写完上一篇把爬取到的数据写入到Excel后，在回家的路上我就盘算着折腾点有趣的东西玩玩——简单的数据分析：分词，统计词频，而后作成词云；分析点什么玩玩好呢？想起之前看到过一个梗，有人把汪峰唱过的歌的歌词作词频统计，而后自嗨做词了一首汪峰Style的歌，2333，原本早上想弄的，发现处理起来有些麻烦，歌词源考虑了下爬虾米音乐，可是有些歌词不规范，这个多点什么，那个少点什么，处理起来挺麻烦的，就放弃了，后面在看文章的时候发现了一个有点意思的例子： Python文本分析：2016年政府工做报告有哪些高频词？ 3月5日不是刚召开完第十三届全国人民表明大会吗？会后发布了： 2018政府工做报告，做为一个积极爱国分子，写个Python脚原本分析分析高频词，弄个词云学习学习，岂不美哉～开始本节内容！github

1.数据准备

百度随手搜下关键字，2018政府工做报告，随手翻开一个： 2018政府工做报告全文(推荐收藏)：news.ifeng.com/a/20180305/…正则表达式

这种就很是简单了，直接Element看所需的数据节点：数组

div包着一堆p标签，拿到p标签里的text就能够了，这里过滤掉最后一个来源：新华社bash

能够加个print把text打出来：dom

没错是想要的数据，在作分词前，经过正则把各类乱七八糟的标点符号还有数字都替换掉：函数

punctuation_pattern = re.compile('[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？“”、~@#￥%……&*（）(\d+)]+')
result = punctuation_pattern.sub("", extract_text(news_url))
print(result)
复制代码

替换结果：工具

到此，用做分词的字符串就准备好了～

2.分词与词频统计

由于咱们的数据都是中文的，这里选用号称： 作最好的 Python 中文分词组件 的 jieba库

Github仓库：github.com/fxsjy/jieba
官方文档：pypi.python.org/pypi/jieba/
Python中文分词 jieba 十五分钟入门与进阶：blog.csdn.net/fontthrone/…

pip命令行安装一波库：

pip install jieba
复制代码

使用方法也很简单：

cut方法参数：(分词的字符串，cut_all是否打开全模式)，全模式的意思就是会这样匹配，好比：大傻逼，会分词成：大傻，傻逼和大傻逼另外这里还作了下判断，长度大于等于2才算一个词。运行下把分词后数组遍历下，能够，没毛病。

接着就到同此词频了，这里的统计的话分两个选项吧，你看你是要统计词出现的频次，仍是出现的频率，这里就先统计下频次吧，就是词出现的次数，看到网上的套路都是经过：

**collections模块的Counter**类来实现的，Counter是一个无序的容器类型，以字典的键值对形式存储，元素为key，计数为value，通常 用来跟踪值出现的次数。

PS：括号里的50表明取次数最多的前50个～

输出结果：

频次拿到了，可是有个问题，咱们发现有一些关键词是没什么意义的，好比推动，提升等等动词，咱们须要对数据进行过滤(貌似有个专业名词叫：数据清洗)，最简单的就是定义一个过滤列表，把想过滤的词都丢进去，分词后遍历一波，把在过滤列表中存在的元素进行移除：

运行结果：

能够，意义不大的关键词都过滤掉了，关于统计频次目前只知道这个套路，有其余高大上的套路的欢迎在评论区留言告知～接着就是频率统计，就是出现的百分比，这个能够知己经过jieba库里的**analyse模块解决，这个东西支持停用词** 文件过滤，就是把不想要的分词都丢一个文件里，分词时会自动过滤，调用的函数是：extract_tags

运行结果：

参数topK表明提取多少个，withWeight是否带有频率(权重)，另外可能你对停用词文件比较好奇，其实内容很是简单：

分词与词频问题就已经解决了，接下来搞词云了。

3.生成词云

网上搜词云的库基本都用的wordcloud这个库，就直接拿这个开刀吧！

Github仓库：github.com/amueller/wo…
官方博客：amueller.github.io/word_cloud/
Python词云 wordcloud 十五分钟入门与进阶： blog.csdn.net/fontthrone/…

pip命令行安装一波库：

pip install wordcloud
复制代码

用这个库最关键的就是WordCloud构造函数：

参数详解：

font_path：字体路径，就是绘制词云用的字体，好比monaco.ttf
width：输出的画布宽度，默认400像素
height：输出的画布宽度，默认200像素
margin：画布偏移，默认2像素
prefer_horizontal : 词语水平方向排版出现的频率，默认0.9，垂直方向出现几率0.1
mask：若是参数为空，则使用二维遮罩绘制词云。若是 mask 非空，设置的宽高值将被忽略，遮罩形状被 mask，除全白（#FFFFFF）的部分将不会绘制，其他部分会用于绘制词云。如：bg_pic = imread('读取一张图片.png')，背景图片的画布必定要设置为白色（#FFFFFF），而后显示的形状为不是白色的其余颜色。能够用ps工具将本身要显示的形状复制到一个纯白色的画布上再保存，就ok了。
scale：按照比例进行放大画布，如设置为1.5，则长和宽都是原来画布的1.5倍
color_func：生成新颜色的函数，若是为空，则使用 self.color_func
max_words：显示的词的最大个数
min_font_size：显示的最小字体大小
stopwords：须要屏蔽的词(字符串集合)，为空使用内置STOPWORDS
random_state：若是给出了一个随机对象，用做生成一个随机数
background_color：背景颜色，默认为黑色
max_font_size：显示的最大的字体大小
font_step：字体步长，若是步长大于1，会加快运算可是可能致使结果出现较大的偏差
mode：当参数为"RGBA"，而且background_color不为空时，背景为透明。默认RGB
relative_scaling：词频和字体大小的关联性，默认5
regexp：使用正则表达式分隔输入的文本
collocations：是否包括两个词的搭配
colormap：给每一个单词随机分配颜色，若指定color_func，则忽略该方法
normalize_plurals：是否删除尾随的词语

经常使用的几个方法：

fit_words(frequencies) //根据词频生成词云
generate(text) //根据文本生成词云
generate_from_frequencies(frequencies[, ...]) #根据词频生成词云
generate_from_text(text) #根据文本生成词云
process_text(text) #将长文本分词并去除屏蔽词（此处指英语，中文分词仍是须要本身用别的库先行实现，使用上面的 fit_words(frequencies) ）
recolor([random_state, color_func, colormap]) #对现有输出从新着色。从新上色会比从新生成整个词云快不少。
to_array() #转化为 numpy array
to_file(filename) #输出到文件

看得我真是一脸懵逼，直接写个最简单的例子，帮助咱们上手~

调用下这个方法，把咱们前面的分词后的数组传进去：

输出结果：

能够，很是有意思，此时此刻，忽然：

官方能够的是这样的例子：

啧啧，Too young,too simple！先找一个膜法师专用图，而后改一波代码(没有原图，别问我)：

执行下(真正的粉丝...)：

这个字体是随机颜色的，感受还差点什么，不如让字体跟随着图片的颜色？可能会感觉更深入一些！获取一波颜色数组，设置下就能够了：

执行下：

真别问我要原图，没有，另外上面用到一个scipy库，用来获取一个颜色矩阵的，官方示例里还用到了另外的一个库：matplotlib 一个很屌的可视化绘图模块。原本想试试的，不过快下班了，下次吧～

小结

本节试了一波Python里的数据分析，讲真，老早以前就想试试这个东西了，经过大量的数据分析得出一些结论，好比抓取某个心仪同事妹子朋友圈里或者微博里的全部信息，作下词频统计分析，能够大概猜想这我的的兴趣爱好，又好比抓取某个商品的全部评论，分析下词频，能够获得购买者们对此商品的客观评价 (刷单是存在的，只能说做为一个参考依据)，又好比最近是招聘的金三银四，HR天天都要过滤一堆简历，ORC识别后，分词统计出，过滤工做年限，是否有项目经验等，设置一个匹配度的机制，筛选掉匹配度不足多少的简历。(只是脑洞...) Python是真的好玩！最后说一句，我只是一个跑得快的香港接着，并不想搞个大新闻，naive！

附：最终代码(均可以在：github.com/coder-pig/R… 找到)：

# 分析2018政府工做报告全文高频词
import jieba
import jieba.analyse
import requests
import tools as t
import re
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
from collections import Counter
import matplotlib.pyplot as plt
from scipy.misc import imread

news_url = "http://news.ifeng.com/a/20180305/56472392_0.shtml"
# 过滤掉全部中文和英文标点字符，数字
punctuation_pattern = re.compile('[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？“”、~@#￥%……&*（）(\d+)]+')
exclude_words_file = "exclude_words.txt"


# 获取网页中的正文文本
def extract_text(url):
    report = ""
    resp = requests.get(news_url).content
    if resp is not None:
        soup = t.get_bs(resp)
        ps = soup.select('div#main_content p')
        for p in ps[:-1]:
            report += p.text
    return report


# 生成词云文件
def generate_wc(content):
    path = r'fzzqhj.TTF'
    bg_pic = imread('mo.png')  # 读取一张图片文件
    image_colors = ImageColorGenerator(bg_pic)  # 从背景图片生成颜色值
    wc = WordCloud(font_path=path, background_color="white",
                   mask=bg_pic,
                   stopwords=STOPWORDS.add("said"),
                   max_font_size=40,
                   color_func=image_colors,
                   random_state=42)
    wc = wc.generate(content)
    wc.to_file('result.jpg')


if __name__ == '__main__':
    result = punctuation_pattern.sub("", extract_text(news_url))
    words = [word for word in jieba.cut(result, cut_all=False) if len(word) >= 2]
    # # 设置停用词
    # jieba.analyse.set_stop_words(exclude_words_file)
    # # 获取关键词频率
    # tags = jieba.analyse.extract_tags(result, topK=100, withWeight=True)
    # for tag in tags:
    # print(tag[0] + "~" + str(tag[1]))

    exclude_words = [
        "中国", "推动", "全面", "提升", "工做", "坚持", "推进",
        "支持", "促进", "实施", "加快", "增长", "实现", "基本",
        "重大", "我国", "咱们", "扩大", "继续", "优化", "加大",
        "今年", "地方", "取得", "以上", "供给", "坚定", "力度",
        "着力", "深刻", "积极", "解决", "下降", "维护", "问题",
        "保持", "万亿元", "改善", "作好", "表明", "合理"
    ]
    for word in words:
        if word in exclude_words:
            words.remove(word)
    data = r' '.join(words)
    generate_wc(data)

    # c = Counter(words)
    # for word_freq in c.most_common(50):
    # word, freq = word_freq
    # print(word, freq)

复制代码

来啊，Py交易啊

想加群一块儿学习Py的能够加下，智障机器人小Pig，验证信息里包含： Python，python，py，Py，加群，交易，屁眼中的一个关键词便可经过；

验证经过后回复加群便可得到加群连接(不要把机器人玩坏了！！！)～～～欢迎各类像我同样的Py初学者，Py大神加入，一块儿愉快地交流学♂习，van♂转py。