原理是利用python来模拟登录QQ空间,对一个QQ的空间说说内容进行爬取,把爬取的内容保存在txt文件中,而后根据txt文件生成词云。
如下是生成的词云图html
个人环境:Mac
,Anaconda
,Python2.7
,以及各类用到的Python
库python
Anaconda 是一个可用于科学计算的 Python 发行版,支持 Linux、Mac、Windows系统,内置了经常使用的科学计算包。它解决了官方 Python 的两大痛点。linux
conda 是 Anaconda 下用于包管理和环境管理的工具,功能上相似 pip 和 vitualenv 的组合。安装成功后 conda 会默认加入到环境变量中,所以可直接在命令行窗口运行命令 condagit
conda 的环境管理与 virtualenv 是基本上是相似的操做。github
# 查看帮助 conda -h # 基于python3.6版本建立一个名字为python36的环境 conda create --name python36 python=3.6 # 激活此环境 source activate python36 # linux/mac # 再来检查python版本,显示是 3.6 python -V # 退出当前环境 source deactivate python36 # 删除该环境 conda remove -n python36 --all # 查看因此安装的环境 conda info -e
conda 的包管理功能可 pip 是同样的,固然你选择 pip 来安装包也是没问题的。web
# 安装 matplotlib conda install matplotlib # 查看已安装的包 conda list # 包更新 conda update matplotlib # 删除包 conda remove matplotlib
在 conda 中 anything is a package。conda 自己能够看做是一个包,python 环境能够看做是一个包,anaconda 也能够看做是一个包,所以除了普通的第三方包支持更新以外,这3个包也支持。好比:
Anaconda 的镜像地址默认在国外,用 conda 安装包的时候会很慢,目前可用的国内镜像源地址有清华大学的。修改 ~/.condarc (Linux/Mac)canvas
channels: - https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/ - defaults show_channel_urls: true
若是使用conda安装包的时候仍是很慢,那么能够考虑使用pip来安装,一样把 pip 的镜像源地址也改为国内的,豆瓣源速度比较快。修改 ~/.pip/pip.conf (Linux/Mac)浏览器
[global] trusted-host = pypi.douban.com index-url = http://pypi.douban.com/simple
环境搭建好以后就能够开始愉快地玩数据分析了。app
# 下拉滚动条,使浏览器加载出动态加载的内容, # 我这里是从1开始到6结束 分5 次加载完每页数据 for i in range(1,6): height = 20000*i#每次滑动20000像素 strWord = "window.scrollBy(0,"+str(height)+")" driver.execute_script(strWord) time.sleep(4) # 不少时候网页由多个<frame>或<iframe>组成,webdriver默认定位的是最外层的frame, # 因此这里须要选中一下说说所在的frame,不然找不到下面须要的网页元素 driver.switch_to.frame("app_canvas_frame") selector = etree.HTML(driver.page_source) divs = selector.xpath('//*[@id="msgList"]/li/div[3]')
生成词云须要用到的库:dom
wordcloud
, 生成词云matplotlib
, 生成词云图片jieba
,显示中文。#coding:utf-8 from wordcloud import WordCloud import matplotlib.pyplot as plt import jieba #生成词云 def create_word_cloud(filename): text= open("{}.txt".format(filename)).read() # 结巴分词 wordlist = jieba.cut(text, cut_all=True) wl = " ".join(wordlist) # 设置词云 wc = WordCloud( # 设置背景颜色 background_color="white", # 设置最大显示的词云数 max_words=2000, # 这种字体都在电脑字体中,通常路径 font_path='/System/Library/Fonts/PingFang.ttc', height= 1200, width= 1600, # 设置字体最大值 max_font_size=100, # 设置有多少种随机生成状态,即有多少种配色方案 random_state=30, ) myword = wc.generate(wl) # 生成词云 # 展现词云图 plt.imshow(myword) plt.axis("off") plt.show() wc.to_file('py_book.png') # 把词云保存下 if __name__ == '__main__': create_word_cloud('qq_word')
全部完整代码已放github
github地址https://github.com/Jimmy9876/...