上一篇文章: Python3网络爬虫实战---二、请求库安装:GeckoDriver、PhantomJS、Aiohttp
下一篇文章:Python3网络爬虫实战---数据库的安装:MySQL、MongoDB、Redis
抓取下网页代码以后,下一步就是从网页中提取信息,提取信息的方式有多种多样,可使用正则来提取,可是写起来会相对比较繁琐。在这里还有许多强大的解析库,如 LXML、BeautifulSoup、PyQuery 等等,提供了很是强大的解析方法,如 XPath 解析、CSS 选择器解析等等,利用它们咱们能够高效便捷地从从网页中提取出有效信息。python
本节咱们就来介绍一下这些库的安装过程。git
LXML 是 Python 的一个解析库,支持 HTML 和 XML 的解析,支持 XPath 解析方式,并且解析效率很是高。github
pip3 install lxml
若是产生错误,能够执行以下命令将必要的类库安装:数据库
xcode-select --install
以后再从新运行 Pip 安装就没有问题了。segmentfault
LXML 是一个很是重要的库,后面的 BeautifulSoup、Scrapy 框架都须要用到此库,因此请必定安装成功。api
安装完成以后,能够在 Python 命令行下测试。xcode
$ python3 >>> import lxml
若是没有错误报出,则证实库已经安装好了。服务器
BeautifulSoup 是 Python 的一个 HTML 或 XML 的解析库,咱们能够用它来方便地从网页中提取数据,它拥有强大的 API 和多样的解析方式,本节咱们了解下它的安装方式。网络
BeautifulSoup 的 HTML 和 XML 解析器是依赖于 LXML 库的,因此在此以前请确保已经成功安装好了 LXML 库,具体的安装方式参见上节。框架
目前 BeautifulSoup 的最新版本是 4.x 版本,以前的版本已经中止开发了,推荐使用 Pip 来安装,安装命令以下:
pip3 install beautifulsoup4
命令执行完毕以后便可完成安装。
安装完成以后能够运行下方的代码验证一下。
from bs4 import BeautifulSoup soup = BeautifulSoup('<p>Hello</p>', 'lxml') print(soup.p.string)
运行结果:
Hello
若是运行结果一致则证实安装成功。
注意在这里咱们虽然安装的是 beautifulsoup4 这个包,可是在引入的时候是引入的 bs4,这是由于这个包源代码自己的库文件夹名称就是 bs4,因此安装完成以后,这个库文件夹就被移入到咱们本机 Python3 的 lib 库里,因此识别到的库文件名称就叫作 bs4,因此咱们引入的时候就引入 bs4 这个包。
所以,包自己的名称和咱们使用时导入的包的名称并不必定是一致的。
PyQuery 一样是一个强大的网页解析工具,它提供了和 jQuery 相似的语法来解析 HTML 文档,支持 CSS 选择器,使用很是方便,本节咱们了解下它的安装方式。
pip3 install pyquery
安装完成以后,能够在 Python 命令行下测试。
$ python3 >>> import pyquery
若是没有错误报出,则证实库已经安装好了。
爬虫过程当中不免会遇到各类各样的验证码,而大多数验证码仍是图形验证码,这时候咱们能够直接用 OCR 来识别。
OCR,即 Optical Character Recognition,光学字符识别。是指经过扫描字符,而后经过其形状将其翻译成电子文本的过程。那么对于图形验证码来讲,它都是一些不规则的字符,可是这些字符确实是由字符稍加扭曲变换获得的内容。
例如这样的验证码,如图 1-22 和 1-23 所示:
图 1-22 验证码
图 1-23 验证码
对于这种验证码,咱们即可以使用 OCR 技术来将其转化为电子文本,而后爬虫将识别结果提交给服务器,即可以达到自动识别验证码的过程。
Tesserocr 是 Python 的一个 OCR 识别库,但实际上是对 Tesseract 作的一层 Python API 封装,因此它的核心是 Tesseract,因此在安装 Tesserocr 以前咱们须要先安装 Tesseract,本节咱们来了解下它们的安装方式。
Mac 下首先使用 Homebrew 安装 Imagemagick 和 Tesseract 库:
brew install imagemagick brew install tesseract
接下来再安装 Tesserocr 便可:
pip3 install tesserocr pillow
这样咱们便完成了 Tesserocr 的安装。
接下来咱们可使用 Tesseract 和 Tesserocr 来分别进行测试。
下面咱们以以下的图片为样例进行测试,如图 1-26 所示:
图 1-26 测试样例
图片连接为:https://raw.githubusercontent...,能够直接保存或下载。
咱们首先用命令行进行测试,将图片下载保存为 image.png,而后用 Tesseract 命令行测试,命令以下:
tesseract image.png result -l eng && cat result.txt
运行结果:
Tesseract Open Source OCR Engine v3.05.01 with Leptonica Python3WebSpider
咱们调用了 tesseract 命令,第一个参数为图片名称,第二个参数 result 为结果保存的目标文件名称,-l 指定使用的语言包,在此使用 eng 英文,而后再用 cat 命令将结果输出。
第二行的运行结果即是图片的识别结果,Python3WebSpider。
咱们能够看到这时已经成功将图片文字转为电子文本了。
而后咱们还能够利用 Python 代码来测试,这里就须要借助于 Tesserocr 库了,测试代码以下:
import tesserocr from PIL import Image image = Image.open('image.png') print(tesserocr.image_to_text(image))
若是在运行期间python3闪退,出现下面错误:
!strcmp(locale, "C"):Error:Assert failed:in file baseapi.cpp, line 209就须要这样运行了:
import locale locale.setlocale(locale.LC_ALL,'C') import tesserocr from PIL import Image image = Image.open('image.png') print(tesserocr.image_to_text(image))
在这里咱们首先利用 Image 读取了图片文件,而后调用了 tesserocr 的 image_to_text() 方法,再将将其识别结果输出。
运行结果:
Python3WebSpider
另外咱们还能够直接调用 file_to_text() 方法,也能够达到一样的效果:
import tesserocr print(tesserocr.file_to_text('image.png'))
运行结果:
Python3WebSpider
若是成功输出结果,则证实 Tesseract 和 Tesserocr 都已经安装成功。
上一篇文章: Python3网络爬虫实战---二、请求库安装:GeckoDriver、PhantomJS、Aiohttp 下一篇文章:Python3网络爬虫实战---数据库的安装:MySQL、MongoDB、Redis