Selenium with Python 用于网站抓取

  前边一段时间,曾经想作百度图片的抓取,惋惜所有都是用javascript封装的,看不到网址,后来不得不转投其余搜索引擎——大神Google(里面的网址是能够直接经过源代码爬取的,只惋惜对一些敏感词,搜索不到,这也使得爬取图片大打折扣),后来在网上搜索了一下,才得知须要有一些浏览器渲染引擎,才能够爬取一些含有AJAX、Javascript、CSS网页,Python 用于网站抓取 登陆 发布的模块介绍(http://www.open-open.com/lib/view/1346029660489),里面比较详细的分析了Web Browser引擎,在此,不作过多的解释,webkit确实是不错的,也想过用这个,可是不能跨平台,暂时放弃,选择了Selenium,可是在配置Selenium过程当中,遇到一些问题,见下:javascript

   一、selenium-server-standalone-2.35.0.jar没法下载,官网上面的连接老是找不到文件;php

 二、安装完selenium-2.35.0 python包后,仍是没法应用html

首先声明:个人安装环境是Win7+python2.7,针对第一个问题,提供下面的网址:https://code.google.com/p/selenium/downloads/list,在这个里面能够找到最新的selenium-server的jar文件,至于python的selenium包,能够再python的官网上找到,这里提供一个网址:https://pypi.python.org/pypi/selenium/,至于第二个问题,在《Selenium with Python》(https://gist.github.com/daemianmack/1099713#selenium-with-python)中提到以下:java

You can download Python bindings for Selenium from the PyPI page for selenium package. It has a dependency on rdflib, version 3.1.x.python

You can also use easy_install or pip to install the bindings:git

easy_install seleniumgithub

or : pip install seleniumweb

大体意思是说selenium库还依赖于另外一个库rdflib,也确实如此,安装这个库以后,便可应用selenium,网址为:https://pypi.python.org/pypi/rdflib 浏览器

总结步骤以下:python2.7

1. 下载selenium-2.35.0 python包:https://pypi.python.org/pypi/selenium,解压,安装,python setup.py install

2. 下载rdflib 包:https://pypi.python.org/pypi/rdflib,一样,解压,安装,python setup.py install

3. 下载selenium-server-standalone.jar,(官网上的连接不能用,很郁闷),后来找到一个连接:https://code.google.com/p/selenium/downloads/list

Java -jar selenium-server.jar来启动Selenium Server端的服务,固然,须要有java支持,才能够,须要安装java的,这个应该好找。

下面就能够试试你的selenium,是否可用了。

from selenium import webdriver,若是没有报错,那恭喜你,成功了。

下面提供几个学习selenium的网址:

1. Selenium私房菜系列:http://www.cnblogs.com/hyddd/archive/2009/05/20/1473146.html

2. Selenium中文论坛:http://seleniumcn.cn/thread.php?fid=17

3. Selenium with Python: https://gist.github.com/daemianmack/1099713

相关文章
相关标签/搜索