###1, 引言 注释:上一篇《Python爬虫实战(3):安居客房产经纪人信息采集》,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功。本篇是针对动态网页的数据采集编程实战。html
Python开源网络爬虫项目启动之初,咱们就把网络爬虫分红两类:即时爬虫和收割式网络爬虫。为了适应各类应用场景,GooSeeker的整个网络爬虫产品线包含了四类产品,以下图所示: python
本实战是上图中的“独立python爬虫”的一个实例,以采集豆瓣小组讨论话题(https://www.douban.com/group/haixiuzu/discussion?start=0 )信息为例,记录整个采集流程,包括python和依赖库的安装,即使是python初学者,也能够跟着文章内容成功地完成运行。git
###2,Python和相关依赖库的安装github
####2.1,安装Python3.5.2web
####2.2,Lxml 3.6.0编程
####2.3,下载网页内容提取器程序 网页内容提取器程序是GooSeeker为开源Python即时网络爬虫项目发布的一个类,使用这个类,能够大大减小数据采集规则的调试时间,具体参看《Python即时网络爬虫项目: 内容提取器的定义》windows
####2.4,安装seleniumapi
####2.5,PhantomJS下载网络
###3,网络爬虫的源代码app
# _*_coding:utf8_*_ # douban.py # 爬取豆瓣小组讨论话题 from urllib import request from lxml import etree from gooseeker import GsExtractor from selenium import webdriver class PhantomSpider: def getContent(self, url): browser = webdriver.PhantomJS(executable_path='C:\\phantomjs-2.1.1-windows\\bin\\phantomjs.exe') browser.get(url) time.sleep(3) html = browser.execute_script("return document.documentElement.outerHTML") output = etree.HTML(html) return output def saveContent(self, filepath, content): file_obj = open(filepath, 'w', encoding='UTF-8') file_obj.write(content) file_obj.close() doubanExtra = GsExtractor() # 下面这句调用gooseeker的api来设置xslt抓取规则 # 第一个参数是app key,请到GooSeeker会员中心申请 # 第二个参数是规则名,是经过GooSeeker的图形化工具: 谋数台MS 来生成的 doubanExtra.setXsltFromAPI("ffd5273e213036d812ea298922e2627b" , "豆瓣小组讨论话题") url = "https://www.douban.com/group/haixiuzu/discussion?start=" totalpages = 5 doubanSpider = PhantomSpider() print("爬取开始") for pagenumber in range(1 , totalpages): currenturl = url + str((pagenumber-1)*25) print("正在爬取", currenturl) content = doubanSpider.getContent(currenturl) outputxml = doubanExtra.extract(content) outputfile = "result" + str(pagenumber) +".xml" doubanSpider.saveContent(outputfile , str(outputxml)) print("爬取结束")
运行过程以下:
**请注意:**为了让源代码更整洁,也为了让爬虫程序更有通用性,抓取规则是经过api注入到内容提取器bbsExtra中的,这样还有另一个好处:若是目标网页结构变化了,只需经过MS谋数台从新编辑抓取规则,而本例的网络爬虫代码不用修改。为内容提取器下载采集规则的方法参看《Python即时网络爬虫:API说明—下载内容提取器》。
###4,爬虫结果
在项目目录下能够看到多个result**.xml文件,文件内容以下图所示:
###5,总结
由于信息采集规则是经过api下载下来的,因此,本案例的源代码显得十分简洁。同时,整个程序框架变得很通用,由于最影响通用性的采集规则是从外部注入的。
###6,集搜客GooSeeker开源代码下载源
###7,文档修改历史
2016-07-18:V1.0