Python+Selenium+Phantomjs数据抓取环境配置实践

时间 2019-11-18

标签 python+selenium+phantomjs python selenium phantomjs 数据抓取环境配置实践栏目 Python 繁體版

原文原文链接

之后估计要作数据挖掘方面的项目，如今却连数据都不会爬，这怎么能行？ html

先在知乎上面看到有高手说selenium能够用来爬数据，而后进一步找到了 “数据抓取的艺术（一）：Selenium+Phantomjs数据抓取环境配置”，照着作却碰到了问题。 python

Python用的是 ActivePython，里面已经帮你把easy_install 和 pip 都装好了，第一步Python的安装没有问题。 web

可是第二步使用 pip install selenium 这一步却怎么也过不去了，多是校园网的问题，因此下载总是出问题。测试

上官网下了selenium-2.33.0.tar.gz，解压缩之后殊不知道放哪。。。 ui

小白略感无奈，在网上找了半天，终于找到了该怎么办： spa

第一种办法是，把解压目录下的selenium文件夹（selenium-2.33.0\py\selenium）拷到 Python 安装目录下的 Lib\site-packages下就行了 .net

第二种办法是转到解压后的目录下运行setup.py 文件，命令是 python setup.py install。而后命令行黑框就会输出一大堆信息，结束之后，解压的目录下会多出两个文件夹，另外 Lib\site-packages 下也会多出一个 selenium-2.33.0-py2.7.egg 文件夹（貌似还有一个隐藏的同名文件）。命令行

不知道两种方法有没有差异，可是心理上感受第二种好一点。（小白不懂，只是感受而已） unix

接下来就是测试了，我前面找到的那篇博客是用百度作测试的，可是我一直测试不能经过，因此换了搜狗的主页试了试，成功了。 code

我新建的 test.py 代码是：

from selenium import webdriver

driver = webdriver.PhantomJS()
driver.get('http://www.sogou.com/')
data = driver.find_element_by_id('sina').text
print data
driver.quit()

效果如图：

总算是成功了，你们也能够试试看。

（注：本文搬家自CSDN博客，原文写做时间为2013-06-26 19:40，已删除。）