之后估计要作数据挖掘方面的项目,如今却连数据都不会爬,这怎么能行? html
先在知乎上面看到有高手说selenium能够用来爬数据,而后进一步找到了 “数据抓取的艺术(一):Selenium+Phantomjs数据抓取环境配置”,照着作却碰到了问题。 python
Python用的是 ActivePython,里面已经帮你把easy_install 和 pip 都装好了,第一步Python的安装没有问题。 web
可是第二步使用 pip install selenium 这一步却怎么也过不去了,多是校园网的问题,因此下载总是出问题。 测试
上官网下了selenium-2.33.0.tar.gz,解压缩之后殊不知道放哪。。。 ui
小白略感无奈,在网上找了半天,终于找到了该怎么办: spa
第一种办法是,把解压目录下的selenium文件夹(selenium-2.33.0\py\selenium)拷到 Python 安装目录下的 Lib\site-packages下就行了 .net
第二种办法是转到解压后的目录下运行setup.py 文件,命令是 python setup.py install。而后命令行黑框就会输出一大堆信息,结束之后,解压的目录下会多出两个文件夹,另外 Lib\site-packages 下也会多出一个 selenium-2.33.0-py2.7.egg 文件夹(貌似还有一个隐藏的同名文件)。 命令行
不知道两种方法有没有差异,可是心理上感受第二种好一点。(小白不懂,只是感受而已) unix
接下来就是测试了,我前面找到的那篇博客是用百度作测试的,可是我一直测试不能经过,因此换了搜狗的主页试了试,成功了。 code
我新建的 test.py 代码是:
from selenium import webdriver driver = webdriver.PhantomJS() driver.get('http://www.sogou.com/') data = driver.find_element_by_id('sina').text print data driver.quit()
效果如图:
总算是成功了,你们也能够试试看。
(注:本文搬家自CSDN博客,原文写做时间为2013-06-26 19:40,已删除。)