Python爬虫利器Selenium+PhantomJS系列入门

涉及到JavaScript渲染的页面却不能抓取,因此采用Web自动化测试工具Selenium,无界面浏览器PhantomJS来抓取JavaScript渲染的页面,带咱们熟悉使用后,爬虫技能将大大提高。 Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操做同样。支持的浏览器包括IE、Mozilla Firefox、Chrome等。 Phantom JS是一个服务器端的 JavaScript API 的 WebKit。其支持各类Web标准: DOM 处理, CSS 选择器, JSON, Canvas, 和 SVG。 Selenium支持多种语言开发,好比 Java,Python, C,Ruby等 首先安装 Python 的 Selenium 库,再安装好 PhantomJS,就能够实现 Python+Selenium+PhantomJS 的无缝对接了嘛!PhantomJS 用来渲染解析JS,Selenium 用来驱动PhantomJS以及与 Python 的对接,Python 进行网页后期的处理,完美的三剑客!html

PhantomJS下载:http://phantomjs.org/download.htmlweb

代码以下:浏览器

from selenium import webdriver

driver = webdriver.PhantomJS()
driver.get('http://wenshu.court.gov.cn/list/list/')
data = driver.page_source
print data
driver.quit()
相关文章
相关标签/搜索