Python3网络爬虫实战---一、请求库安装:Requests、Selenium、ChromeDriver

下一篇文章: Python3网络爬虫实战---二、请求库安装:GeckoDriver、PhantomJS、Aiohttp

爬虫能够简单分为几步:抓取页面、分析页面、存储数据。html

在第一步抓取页面的过程当中,咱们就须要模拟浏览器向服务器发出请求,因此须要用到一些 Python 库来实现 HTTP 请求操做,在本书中咱们用到的第三方库有 Requests、Selenium、Aiotttp 等。python

在本节咱们介绍一下这些请求库的安装方法。git

1.1.1 Requests的安装

因为 Requests 属于第三方库,也就是 Python 默认不会自带这个库,须要咱们手动去安装,下面咱们首先看一下它的安装过程。github

1. 相关连接

2. 安装

pip3 install requests

3. 验证安装

为了验证库是否已经安装成功,能够在命令行下测试一下:web

$ python3
>>> import requests

在命令行首先输入 python3,进入命令行模式,而后输入如上内容,若是什么错误提示也没有,那么就证实咱们已经成功安装了 Requests。chrome

1.1.2 Selenium的安装

Selenium 是一个自动化测试工具,利用它咱们能够驱动浏览器执行特定的动做,如点击、下拉等等操做,对于一些 JavaScript 渲染的页面来讲,此种抓取方式很是有效,下面咱们来看下 Selenium 的安装过程。segmentfault

1. 相关连接

2. 安装

pip3 install selenium

3. 验证安装

进入 Python 命令行交互模式,导入一下 Selenium 包,若是没有报错,则证实安装成功。api

$ python3
>>> import selenium

但这样还不够,咱们还须要浏览器如 Chrome、Firefox 等浏览器来配合 Selenium 工做。浏览器

下面咱们会介绍 Chrome、Firefox、PhantomJS 三种浏览器的配置方式,有了浏览器咱们才能够配合 Selenium 进行页面的抓取。服务器

1.1.3 ChromeDriver的安装

在上节咱们成功安装好了 Selenium 库,可是它是一个自动化测试工具,须要浏览器来配合它使用,那么本节咱们就介绍一下 Chrome 浏览器及 ChromeDriver 驱动的配置。
首先须要下载一个 Chrome 浏览器,方法多样,在此再也不赘述。
随后咱们须要安装一个 ChromeDriver 才能驱动 Chrome 浏览器完成相应的操做,下面咱们来介绍下怎样安装 ChromeDriver。

1. 相关连接

2. MAC安装

brew install chromedriver

若是安装失败,使用下面方法

brew cask install chromedriver

3. 验证安装

配置完成以后,就能够在命令行下直接执行 chromedriver 命令了。
命令行下输入:
chromedriver
输入控制台有相似输出,如图 1-17 所示:
clipboard.png

图 1-17 控制台输出
若是有相似输出则证实 ChromeDriver 的环境变量配置好了。
随后再在程序中测试,执行以下 Python 代码:

from selenium import webdriver
browser = webdriver.Chrome()

运行以后会弹出一个空白的 Chrome 浏览器,证实全部的配置都没有问题,若是没有弹出,请检查以前的每一步的配置。
若是弹出以后闪退,则多是 ChromeDriver 版本和 Chrome 版本不简容,请更换 ChromeDriver 版本。
若是没有问题,接下来咱们就能够利用 Chrome 来作网页抓取了。

4. 结语

既然 Chrome 能够经过 Selenium 驱动,Firefox 也能够,若是想要实现 Selenium 驱动 Firefox 浏览器能够参考下面的 GeckoDriver 的安装。

相关文章
相关标签/搜索